محققان حمله مخفیانه به مدلهای زبانی بزرگ را شناسایی کردند!
تحقیقات جدید در دانشگاه سنت لوئیس نشاندهنده وجود یک حمله پشتیبان جدید به نام DarkMind است که قادر به دستکاری مدلهای زبانی بزرگ (LLM) بوده و در عین حال غیرقابل شناسایی است. این موضوع نگرانیهایی را در مورد آسیبپذیریهای امنیتی هوش مصنوعی به وجود آورده است.
مدلهای زبانی بزرگ، از جمله مدلهای پشتیبان ChatGPT، به طور فزایندهای در سراسر جهان برای بازیابی اطلاعات، تحلیل متن و تولید محتوا استفاده میشوند. با پیشرفت این مدلها، محققان در حال بررسی محدودیتهای آنها برای بهبود امنیت هستند. زhen Guo و Reza Tourani از دانشگاه سنت لوئیس، حمله DarkMind را توسعه دادهاند که فرآیندهای استدلال LLMها را هدف قرار میدهد. یافتههای آنها که در سرور پیشچاپ arXiv منتشر شده، نشاندهنده آسیبپذیری در روش استدلال زنجیرهای (CoT) است که به طور گستردهای استفاده میشود.
نکات کلیدی این تحقیق شامل:
- “مطالعه ما از محبوبیت روزافزون مدلهای هوش مصنوعی شخصیسازی شده، مانند مدلهای موجود در فروشگاه GPT OpenAI، Gemini 2.0 گوگل و HuggingChat نشأت گرفته است”، Tourani به Tech Xplore گفت.
- “در حالی که این مدلها آزادی و دسترسی بیشتری را ارائه میدهند، امنیت آنها هنوز بهطور کامل بررسی نشده است، بهویژه در مورد آسیبپذیریهای موجود در فرآیند استدلال آنها.”
DarkMind بهطور پنهانی تریگرهای مخفی را در برنامههای LLM شخصیسازیشده جاسازی میکند و به رفتارهای خصمانه اجازه میدهد تا تا زمان فعال شدن مراحل خاص استدلال، در حالت خواب بمانند. برخلاف حملات پشتیبان سنتی که به تغییر پرسشهای کاربر یا نیاز به آموزش مجدد مدل متکی هستند، DarkMind پاسخها را از طریق مراحل میانی استدلال تحت تأثیر قرار میدهد.
نکات مهم در مورد عملکرد DarkMind:
- “این تریگرها در دستور اولیه نامرئی هستند، اما در طول استدلال فعال میشوند و خروجی نهایی را بهطور ظریف تغییر میدهند”، Guo، نویسنده اصلی این مطالعه، گفت.
- “در نتیجه، این حمله در شرایط عادی غیرقابل شناسایی باقی میماند.”
آزمایشهای اولیه نشان داد که DarkMind بسیار مؤثر و شناسایی آن دشوار است. این حمله به تغییر پرسشهای کاربر متکی نیست و به جای آن، فرآیند استدلال را هدف قرار میدهد، که این امر آن را در برابر وظایف مختلف زبانی مقاوم میسازد. این موضوع برای برنامههای LLM در بخشهای حساس مانند بانکداری و بهداشت و درمان خطراتی به همراه دارد.
Tourani به این نکته اشاره کرد که “DarkMind بر روی چندین حوزه استدلال، از جمله استدلال ریاضی، استدلال مبتنی بر عقل سلیم و استدلال نمادین تأثیر میگذارد.” همچنین این حمله بر روی مدلهای پیشرو مانند GPT-4o، O1 و LLaMA-3 مؤثر است. به علاوه، این حمله میتواند با دستورالعملهای ساده به کار گرفته شود که خطر سوءاستفاده گسترده را افزایش میدهد.
محققان دریافتند که DarkMind بهویژه بر روی LLMهای پیشرفته مؤثر است و فرضیهای را که میگوید مدلهای قویتر امنیت بیشتری دارند، به چالش میکشد. برخلاف حملات پشتیبان موجود که به نمایشهای چندینگانه نیاز دارند، DarkMind بدون نیاز به مثالهای آموزشی قبلی عمل میکند و این امر آن را برای سوءاستفاده در دنیای واقعی عملی میسازد.
Tourani افزود: “در مقایسه با حملات پیشرفتهای مانند BadChain و DT-Base، DarkMind مقاومتر است و تغییراتی در ورودیهای کاربر ایجاد نمیکند، که این امر شناسایی و کاهش آن را به شدت دشوارتر میکند.”
این مطالعه یک شکاف امنیتی بحرانی در قابلیتهای استدلال LLM را برجسته میکند. محققان اکنون در حال توسعه مکانیزمهای دفاعی، از جمله بررسیهای ثبات استدلال و شناسایی تریگرهای خصمانه برای مقابله با DarkMind و تهدیدات مشابه هستند.
Tourani در پایان گفت: “تحقیقات آینده ما بر روی بهبود استراتژیهای کاهش خطر و بررسی آسیبپذیریهای اضافی، از جمله مسمومیت گفتوگوهای چندگانه و جاسازی دستور پنهان متمرکز خواهد بود تا امنیت هوش مصنوعی را تقویت کنیم.”