محققان حمله مخفیانه به مدل‌های زبانی بزرگ را شناسایی کردند!

محققان حمله مخفیانه به مدل‌های زبانی بزرگ را شناسایی کردند!

تحقیقات جدید در دانشگاه سنت لوئیس نشان‌دهنده وجود یک حمله پشتیبان جدید به نام DarkMind است که قادر به دستکاری مدل‌های زبانی بزرگ (LLM) بوده و در عین حال غیرقابل شناسایی است. این موضوع نگرانی‌هایی را در مورد آسیب‌پذیری‌های امنیتی هوش مصنوعی به وجود آورده است.

مدل‌های زبانی بزرگ، از جمله مدل‌های پشتیبان ChatGPT، به طور فزاینده‌ای در سراسر جهان برای بازیابی اطلاعات، تحلیل متن و تولید محتوا استفاده می‌شوند. با پیشرفت این مدل‌ها، محققان در حال بررسی محدودیت‌های آن‌ها برای بهبود امنیت هستند. زhen Guo و Reza Tourani از دانشگاه سنت لوئیس، حمله DarkMind را توسعه داده‌اند که فرآیندهای استدلال LLMها را هدف قرار می‌دهد. یافته‌های آن‌ها که در سرور پیش‌چاپ arXiv منتشر شده، نشان‌دهنده آسیب‌پذیری در روش استدلال زنجیره‌ای (CoT) است که به طور گسترده‌ای استفاده می‌شود.

نکات کلیدی این تحقیق شامل:

  • “مطالعه ما از محبوبیت روزافزون مدل‌های هوش مصنوعی شخصی‌سازی شده، مانند مدل‌های موجود در فروشگاه GPT OpenAI، Gemini 2.0 گوگل و HuggingChat نشأت گرفته است”، Tourani به Tech Xplore گفت.
  • “در حالی که این مدل‌ها آزادی و دسترسی بیشتری را ارائه می‌دهند، امنیت آن‌ها هنوز به‌طور کامل بررسی نشده است، به‌ویژه در مورد آسیب‌پذیری‌های موجود در فرآیند استدلال آن‌ها.”

DarkMind به‌طور پنهانی تریگرهای مخفی را در برنامه‌های LLM شخصی‌سازی‌شده جاسازی می‌کند و به رفتارهای خصمانه اجازه می‌دهد تا تا زمان فعال شدن مراحل خاص استدلال، در حالت خواب بمانند. برخلاف حملات پشتیبان سنتی که به تغییر پرسش‌های کاربر یا نیاز به آموزش مجدد مدل متکی هستند، DarkMind پاسخ‌ها را از طریق مراحل میانی استدلال تحت تأثیر قرار می‌دهد.

READ  کشف مقبره باستانی بزرگ یونانی در نزدیکی کوریند: رازهای تاریخ باستان فاش شد!

نکات مهم در مورد عملکرد DarkMind:

  • “این تریگرها در دستور اولیه نامرئی هستند، اما در طول استدلال فعال می‌شوند و خروجی نهایی را به‌طور ظریف تغییر می‌دهند”، Guo، نویسنده اصلی این مطالعه، گفت.
  • “در نتیجه، این حمله در شرایط عادی غیرقابل شناسایی باقی می‌ماند.”

آزمایش‌های اولیه نشان داد که DarkMind بسیار مؤثر و شناسایی آن دشوار است. این حمله به تغییر پرسش‌های کاربر متکی نیست و به جای آن، فرآیند استدلال را هدف قرار می‌دهد، که این امر آن را در برابر وظایف مختلف زبانی مقاوم می‌سازد. این موضوع برای برنامه‌های LLM در بخش‌های حساس مانند بانکداری و بهداشت و درمان خطراتی به همراه دارد.

Tourani به این نکته اشاره کرد که “DarkMind بر روی چندین حوزه استدلال، از جمله استدلال ریاضی، استدلال مبتنی بر عقل سلیم و استدلال نمادین تأثیر می‌گذارد.” همچنین این حمله بر روی مدل‌های پیشرو مانند GPT-4o، O1 و LLaMA-3 مؤثر است. به علاوه، این حمله می‌تواند با دستورالعمل‌های ساده به کار گرفته شود که خطر سوءاستفاده گسترده را افزایش می‌دهد.

محققان دریافتند که DarkMind به‌ویژه بر روی LLMهای پیشرفته مؤثر است و فرضیه‌ای را که می‌گوید مدل‌های قوی‌تر امنیت بیشتری دارند، به چالش می‌کشد. برخلاف حملات پشتیبان موجود که به نمایش‌های چندین‌گانه نیاز دارند، DarkMind بدون نیاز به مثال‌های آموزشی قبلی عمل می‌کند و این امر آن را برای سوءاستفاده در دنیای واقعی عملی می‌سازد.

Tourani افزود: “در مقایسه با حملات پیشرفته‌ای مانند BadChain و DT-Base، DarkMind مقاوم‌تر است و تغییراتی در ورودی‌های کاربر ایجاد نمی‌کند، که این امر شناسایی و کاهش آن را به شدت دشوارتر می‌کند.”

READ  درخواست بریتانیا از اپل برای دسترسی به اطلاعات نباید به صورت مخفیانه بررسی شود، دادگاه می‌گوید

این مطالعه یک شکاف امنیتی بحرانی در قابلیت‌های استدلال LLM را برجسته می‌کند. محققان اکنون در حال توسعه مکانیزم‌های دفاعی، از جمله بررسی‌های ثبات استدلال و شناسایی تریگرهای خصمانه برای مقابله با DarkMind و تهدیدات مشابه هستند.

Tourani در پایان گفت: “تحقیقات آینده ما بر روی بهبود استراتژی‌های کاهش خطر و بررسی آسیب‌پذیری‌های اضافی، از جمله مسمومیت گفت‌وگوهای چندگانه و جاسازی دستور پنهان متمرکز خواهد بود تا امنیت هوش مصنوعی را تقویت کنیم.”

نوشته‌های مشابه