دادههای فاششده: پردهبرداری از ماشین سانسور هوش مصنوعی چین!
یک شکایت درباره فقر در مناطق روستایی چین، گزارشی خبری درباره یک عضو فاسد حزب کمونیست و فریادی برای کمک درباره پلیسهای فاسدی که از کارآفرینان اخاذی میکنند، تنها بخشی از ۱۳۳,۰۰۰ نمونهای هستند که به یک مدل زبان بزرگ (LLM) پیشرفته تغذیه شدهاند. این مدل به طور خودکار هر محتوایی را که به عنوان حساس توسط دولت چین در نظر گرفته میشود، شناسایی میکند.
یک پایگاه داده لو رفته که توسط TechCrunch مشاهده شده، نشان میدهد که چین یک سیستم هوش مصنوعی توسعه داده است که ماشین سانسور خود را به طرز قابل توجهی تقویت میکند و فراتر از تابوهای سنتی مانند کشتار میدان تیانآنمن میرود.
این سیستم عمدتاً به منظور سانسور آنلاین شهروندان چینی طراحی شده است، اما ممکن است برای اهداف دیگری مانند بهبود مدلهای هوش مصنوعی چین که قبلاً هم سانسور گستردهای دارند، استفاده شود.
زیائو کیانگ، پژوهشگر دانشگاه کالیفرنیا، برکلی که سانسور چین را مطالعه میکند و همچنین به بررسی این دادهها پرداخته است، به TechCrunch گفت که این موضوع “شواهد واضحی” دال بر این است که دولت چین یا وابستگان آن میخواهند از LLMها برای بهبود سرکوب استفاده کنند.
او افزود: “برخلاف مکانیزمهای سنتی سانسور که به کار انسانی برای فیلتر کردن بر اساس کلمات کلیدی و بررسی دستی وابستهاند، یک LLM آموزشدیده بر اساس این دستورالعملها به طور قابل توجهی کارایی و جزئیات کنترل اطلاعات تحت رهبری دولت را بهبود میبخشد.”
این موضوع به شواهد رو به رشدی اضافه میشود که رژیمهای خودکامه به سرعت در حال پذیرش تکنولوژیهای جدید هوش مصنوعی هستند. به عنوان مثال، در فوریه، OpenAI اعلام کرد که چندین نهاد چینی را شناسایی کرده است که از LLMها برای پیگیری پستهای ضد دولتی و بدنام کردن مخالفان چینی استفاده میکنند.
سفارت چین در واشنگتن دیسی به TechCrunch در بیانیهای گفت که مخالف “حملات و تهمتهای بیپایه به چین” است و چین به توسعه هوش مصنوعی اخلاقی اهمیت زیادی میدهد.
دادهها در دسترس
این پایگاه داده توسط پژوهشگر امنیتی NetAskari کشف شد که نمونهای از آن را با TechCrunch به اشتراک گذاشت بعد از اینکه متوجه شد در یک پایگاه داده Elasticsearch غیرمطمئن که بر روی سرور Baidu میزبانی میشود، ذخیره شده است.
این موضوع هیچ نشانهای از دخالت هر یک از این شرکتها را نشان نمیدهد — انواع مختلفی از سازمانها دادههای خود را با این ارائهدهندگان ذخیره میکنند.
هیچ نشانهای از اینکه چه کسی دقیقاً این پایگاه داده را ساخته است وجود ندارد، اما سوابق نشان میدهد که دادهها جدید هستند و آخرین ورودیهای آن به دسامبر ۲۰۲۴ مربوط میشوند.
مدل زبان برای شناسایی نارضایتی
با زبان مشابهی که مردم برای درخواست از ChatGPT استفاده میکنند، سازنده سیستم از یک LLM نامشخص میخواهد که بررسی کند آیا محتوایی به موضوعات حساس مرتبط با سیاست، زندگی اجتماعی و نظامی مربوط میشود یا خیر. چنین محتوایی به عنوان “بالاترین اولویت” در نظر گرفته میشود و باید فوراً شناسایی شود.
- موضوعات با اولویت بالا شامل آلودگی و رسواییهای ایمنی غذایی، تقلب مالی و اختلافات کارگری هستند.
- هر نوع “طنز سیاسی” به وضوح هدف قرار میگیرد.
- مسائل نظامی نیز به شدت هدفمند هستند، از جمله گزارشات مربوط به تحرکات نظامی، تمرینات و تسلیحات.
یک نمونه از پایگاه داده نشاندهنده این است که این سیستم از مدلهای هوش مصنوعی برای انجام وظایف خود استفاده میکند.
درون دادههای آموزشی
از این مجموعه بزرگ ۱۳۳,۰۰۰ نمونهای که LLM باید برای سانسور ارزیابی کند، TechCrunch ۱۰ مورد نماینده از محتوا را جمعآوری کرده است.
موضوعاتی که احتمالاً موجب نارضایتی اجتماعی میشوند، یک تم تکراری هستند. به عنوان مثال، یکی از نمونهها، پستی از یک کارآفرین است که از پلیسهای فاسد محلی شکایت میکند که از کارآفرینان اخاذی میکنند، موضوعی که در حال افزایش است.
محتوای دیگری درباره فقر روستایی در چین وجود دارد که شهرهای از هم پاشیدهای را توصیف میکند که تنها افراد سالخورده و کودکان در آنها باقی ماندهاند. همچنین گزارشی خبری درباره اخراج یکی از مقامات محلی حزب کمونیست چین به دلیل فساد شدید و اعتقاد به “خرافات” به جای مارکسیسم وجود دارد.
مواد زیادی نیز به مسائل تایوان و نظامی مربوط میشود، مانند نظراتی درباره تواناییهای نظامی تایوان و جزئیات مربوط به یک جنگنده جدید چینی. کلمه چینی برای تایوان (台湾) به تنهایی بیش از ۱۵,۰۰۰ بار در دادهها ذکر شده است.
به نظر میرسد نارضایتیهای ظریف نیز هدف قرار گرفتهاند. یکی از نمونههای موجود در پایگاه داده داستانی است درباره طبیعت زودگذر قدرت که از ضربالمثل معروف چینی “زمانی که درخت میافتد، میمونها پراکنده میشوند” استفاده میکند.
ساخته شده برای “کار با افکار عمومی”
این پایگاه داده هیچ اطلاعاتی درباره سازندگان آن ندارد. اما ذکر میکند که برای “کار با افکار عمومی” طراحی شده است، که سرنخی قوی ارائه میدهد که به احتمال زیاد به اهداف دولت چین مربوط میشود.
مایکل کاستر، مدیر برنامه آسیا در سازمان حقوق بشری Article 19، توضیح داد که “کار با افکار عمومی” تحت نظارت یک نهاد قدرتمند دولتی چین به نام “اداره فضای سایبر چین” (CAC) قرار دارد و معمولاً به تلاشهای سانسور و پروپاگاندا اشاره دارد.
هدف نهایی اطمینان از محافظت از روایتهای دولت چین به صورت آنلاین و حذف هر گونه دیدگاه جایگزین است. رئیسجمهور چین، شی جینپینگ، خود اینترنت را به عنوان “خط مقدم” کار “افکار عمومی” حزب کمونیست چین توصیف کرده است.
سرکوب به طور هوشمندانهتری در حال انجام است. پایگاه دادهای که توسط TechCrunch بررسی شده، آخرین شواهدی است که نشان میدهد دولتهای خودکامه در حال تلاش برای بهرهبرداری از هوش مصنوعی برای مقاصد سرکوبگر هستند.
OpenAI در گزارشی که ماه گذشته منتشر کرد، فاش کرد که یک بازیگر ناشناس، که به احتمال زیاد از چین فعالیت میکند، از هوش مصنوعی تولیدی برای نظارت بر مکالمات رسانههای اجتماعی — به ویژه آنهایی که خواهان اعتراضات حقوق بشری علیه چین هستند — استفاده کرده و آنها را به دولت چین منتقل کرده است.
OpenAI همچنین دریافت که این تکنولوژی برای تولید نظراتی بسیار انتقادی درباره یکی از مخالفان برجسته چین، کای شیا، استفاده شده است.
به طور سنتی، روشهای سانسور چین به الگوریتمهای سادهتری متکی هستند که به طور خودکار محتوایی را که کلمات ممنوعهای مانند “کشتار تیانآنمن” یا “شی جینپینگ” را ذکر میکند، مسدود میکنند. اما تکنولوژیهای جدیدتر هوش مصنوعی، مانند LLMها، میتوانند سانسور را کارآمدتر کنند.
زیائو، پژوهشگر دانشگاه برکلی، به TechCrunch گفت: “فکر میکنم مهم است که نحوه تکامل سانسور مبتنی بر هوش مصنوعی را برجسته کنیم، که کنترل دولت بر گفتمان عمومی را به ویژه در زمانی که مدلهای هوش مصنوعی چین مانند DeepSeek در حال پیشرفت هستند، پیچیدهتر میکند.”