داده‌های فاش‌شده: پرده‌برداری از ماشین سانسور هوش مصنوعی چین!

یک شکایت درباره فقر در مناطق روستایی چین، گزارشی خبری درباره یک عضو فاسد حزب کمونیست و فریادی برای کمک درباره پلیس‌های فاسدی که از کارآفرینان اخاذی می‌کنند، تنها بخشی از ۱۳۳,۰۰۰ نمونه‌ای هستند که به یک مدل زبان بزرگ (LLM) پیشرفته تغذیه شده‌اند. این مدل به طور خودکار هر محتوایی را که به عنوان حساس توسط دولت چین در نظر گرفته می‌شود، شناسایی می‌کند.

یک پایگاه داده لو رفته که توسط TechCrunch مشاهده شده، نشان می‌دهد که چین یک سیستم هوش مصنوعی توسعه داده است که ماشین سانسور خود را به طرز قابل توجهی تقویت می‌کند و فراتر از تابوهای سنتی مانند کشتار میدان تیان‌آنمن می‌رود.

این سیستم عمدتاً به منظور سانسور آنلاین شهروندان چینی طراحی شده است، اما ممکن است برای اهداف دیگری مانند بهبود مدل‌های هوش مصنوعی چین که قبلاً هم سانسور گسترده‌ای دارند، استفاده شود.

زیائو کیانگ، پژوهشگر دانشگاه کالیفرنیا، برکلی که سانسور چین را مطالعه می‌کند و همچنین به بررسی این داده‌ها پرداخته است، به TechCrunch گفت که این موضوع “شواهد واضحی” دال بر این است که دولت چین یا وابستگان آن می‌خواهند از LLMها برای بهبود سرکوب استفاده کنند.

او افزود: “برخلاف مکانیزم‌های سنتی سانسور که به کار انسانی برای فیلتر کردن بر اساس کلمات کلیدی و بررسی دستی وابسته‌اند، یک LLM آموزش‌دیده بر اساس این دستورالعمل‌ها به طور قابل توجهی کارایی و جزئیات کنترل اطلاعات تحت رهبری دولت را بهبود می‌بخشد.”

این موضوع به شواهد رو به رشدی اضافه می‌شود که رژیم‌های خودکامه به سرعت در حال پذیرش تکنولوژی‌های جدید هوش مصنوعی هستند. به عنوان مثال، در فوریه، OpenAI اعلام کرد که چندین نهاد چینی را شناسایی کرده است که از LLMها برای پیگیری پست‌های ضد دولتی و بدنام کردن مخالفان چینی استفاده می‌کنند.

سفارت چین در واشنگتن دی‌سی به TechCrunch در بیانیه‌ای گفت که مخالف “حملات و تهمت‌های بی‌پایه به چین” است و چین به توسعه هوش مصنوعی اخلاقی اهمیت زیادی می‌دهد.

داده‌ها در دسترس

این پایگاه داده توسط پژوهشگر امنیتی NetAskari کشف شد که نمونه‌ای از آن را با TechCrunch به اشتراک گذاشت بعد از اینکه متوجه شد در یک پایگاه داده Elasticsearch غیرمطمئن که بر روی سرور Baidu میزبانی می‌شود، ذخیره شده است.

READ ایران و چین: توافق برای تقویت روابط استراتژیک در مذاکرات سطح بالا

این موضوع هیچ نشانه‌ای از دخالت هر یک از این شرکت‌ها را نشان نمی‌دهد — انواع مختلفی از سازمان‌ها داده‌های خود را با این ارائه‌دهندگان ذخیره می‌کنند.

هیچ نشانه‌ای از اینکه چه کسی دقیقاً این پایگاه داده را ساخته است وجود ندارد، اما سوابق نشان می‌دهد که داده‌ها جدید هستند و آخرین ورودی‌های آن به دسامبر ۲۰۲۴ مربوط می‌شوند.

مدل زبان برای شناسایی نارضایتی

با زبان مشابهی که مردم برای درخواست از ChatGPT استفاده می‌کنند، سازنده سیستم از یک LLM نامشخص می‌خواهد که بررسی کند آیا محتوایی به موضوعات حساس مرتبط با سیاست، زندگی اجتماعی و نظامی مربوط می‌شود یا خیر. چنین محتوایی به عنوان “بالاترین اولویت” در نظر گرفته می‌شود و باید فوراً شناسایی شود.

موضوعات با اولویت بالا شامل آلودگی و رسوایی‌های ایمنی غذایی، تقلب مالی و اختلافات کارگری هستند.
هر نوع “طنز سیاسی” به وضوح هدف قرار می‌گیرد.
مسائل نظامی نیز به شدت هدفمند هستند، از جمله گزارشات مربوط به تحرکات نظامی، تمرینات و تسلیحات.

یک نمونه از پایگاه داده نشان‌دهنده این است که این سیستم از مدل‌های هوش مصنوعی برای انجام وظایف خود استفاده می‌کند.

درون داده‌های آموزشی

از این مجموعه بزرگ ۱۳۳,۰۰۰ نمونه‌ای که LLM باید برای سانسور ارزیابی کند، TechCrunch ۱۰ مورد نماینده از محتوا را جمع‌آوری کرده است.

موضوعاتی که احتمالاً موجب نارضایتی اجتماعی می‌شوند، یک تم تکراری هستند. به عنوان مثال، یکی از نمونه‌ها، پستی از یک کارآفرین است که از پلیس‌های فاسد محلی شکایت می‌کند که از کارآفرینان اخاذی می‌کنند، موضوعی که در حال افزایش است.

محتوای دیگری درباره فقر روستایی در چین وجود دارد که شهرهای از هم پاشیده‌ای را توصیف می‌کند که تنها افراد سالخورده و کودکان در آن‌ها باقی مانده‌اند. همچنین گزارشی خبری درباره اخراج یکی از مقامات محلی حزب کمونیست چین به دلیل فساد شدید و اعتقاد به “خرافات” به جای مارکسیسم وجود دارد.

مواد زیادی نیز به مسائل تایوان و نظامی مربوط می‌شود، مانند نظراتی درباره توانایی‌های نظامی تایوان و جزئیات مربوط به یک جنگنده جدید چینی. کلمه چینی برای تایوان (台湾) به تنهایی بیش از ۱۵,۰۰۰ بار در داده‌ها ذکر شده است.

به نظر می‌رسد نارضایتی‌های ظریف نیز هدف قرار گرفته‌اند. یکی از نمونه‌های موجود در پایگاه داده داستانی است درباره طبیعت زودگذر قدرت که از ضرب‌المثل معروف چینی “زمانی که درخت می‌افتد، میمون‌ها پراکنده می‌شوند” استفاده می‌کند.

READ رحمانی‌فضلی به عنوان سفیر ایران در چین منصوب شد!

ساخته شده برای “کار با افکار عمومی”

این پایگاه داده هیچ اطلاعاتی درباره سازندگان آن ندارد. اما ذکر می‌کند که برای “کار با افکار عمومی” طراحی شده است، که سرنخی قوی ارائه می‌دهد که به احتمال زیاد به اهداف دولت چین مربوط می‌شود.

مایکل کاستر، مدیر برنامه آسیا در سازمان حقوق بشری Article 19، توضیح داد که “کار با افکار عمومی” تحت نظارت یک نهاد قدرتمند دولتی چین به نام “اداره فضای سایبر چین” (CAC) قرار دارد و معمولاً به تلاش‌های سانسور و پروپاگاندا اشاره دارد.

هدف نهایی اطمینان از محافظت از روایت‌های دولت چین به صورت آنلاین و حذف هر گونه دیدگاه جایگزین است. رئیس‌جمهور چین، شی جین‌پینگ، خود اینترنت را به عنوان “خط مقدم” کار “افکار عمومی” حزب کمونیست چین توصیف کرده است.

سرکوب به طور هوشمندانه‌تری در حال انجام است. پایگاه داده‌ای که توسط TechCrunch بررسی شده، آخرین شواهدی است که نشان می‌دهد دولت‌های خودکامه در حال تلاش برای بهره‌برداری از هوش مصنوعی برای مقاصد سرکوبگر هستند.

OpenAI در گزارشی که ماه گذشته منتشر کرد، فاش کرد که یک بازیگر ناشناس، که به احتمال زیاد از چین فعالیت می‌کند، از هوش مصنوعی تولیدی برای نظارت بر مکالمات رسانه‌های اجتماعی — به ویژه آن‌هایی که خواهان اعتراضات حقوق بشری علیه چین هستند — استفاده کرده و آن‌ها را به دولت چین منتقل کرده است.

OpenAI همچنین دریافت که این تکنولوژی برای تولید نظراتی بسیار انتقادی درباره یکی از مخالفان برجسته چین، کای شیا، استفاده شده است.

به طور سنتی، روش‌های سانسور چین به الگوریتم‌های ساده‌تری متکی هستند که به طور خودکار محتوایی را که کلمات ممنوعه‌ای مانند “کشتار تیان‌آنمن” یا “شی جین‌پینگ” را ذکر می‌کند، مسدود می‌کنند. اما تکنولوژی‌های جدیدتر هوش مصنوعی، مانند LLMها، می‌توانند سانسور را کارآمدتر کنند.

زیائو، پژوهشگر دانشگاه برکلی، به TechCrunch گفت: “فکر می‌کنم مهم است که نحوه تکامل سانسور مبتنی بر هوش مصنوعی را برجسته کنیم، که کنترل دولت بر گفتمان عمومی را به ویژه در زمانی که مدل‌های هوش مصنوعی چین مانند DeepSeek در حال پیشرفت هستند، پیچیده‌تر می‌کند.”