محققان حمله مخفیانه به مدل‌های زبانی بزرگ را شناسایی کردند!

محققان حمله مخفیانه به مدل‌های زبانی بزرگ را شناسایی کردند!

تحقیقات دانشگاه سنت لوئیس نشان می‌دهد که حمله‌ای به نام DarkMind وجود دارد که می‌تواند مدل‌های زبانی بزرگ (LLM) را دستکاری کند و غیرقابل شناسایی است. این حمله به فرآیندهای استدلال LLMها آسیب می‌زند و در شرایط عادی شناسایی نمی‌شود. محققان بر این باورند که DarkMind می‌تواند خطراتی برای برنامه‌های حساس مانند بانکداری و بهداشت به همراه داشته باشد. این حمله بر روی مدل‌های پیشرفته مانند GPT-4o و LLaMA-3 مؤثر است و بر خلاف حملات سنتی، نیازی به تغییر پرسش‌های کاربر ندارد. محققان در حال توسعه مکانیزم‌های دفاعی برای مقابله با این تهدید هستند.