مدل صدای هوش مصنوعی: شگفتی و نگرانی کاربران با واقعگرایی حیرتانگیز
مدل صدای هوش مصنوعی جدیدی از استارتاپ سسامی با واقعگرایی نزدیک به انسان، کاربران را شگفتزده کرده و تحسین و نگرانیهایی را به همراه داشته است. این مدل، تحت عنوان مدل گفتار محاورهای سسامی (CSM) در اواخر فوریه معرفی شده و به مرز “دره غیرقابل تحمل” صدای تولید شده توسط هوش مصنوعی رسیده است. کاربران واکنشهای احساسی خود را نسبت به صداهای آن، “مایلز” و “مایا” به اشتراک گذاشتهاند.
یکی از کاربران در Hacker News نوشت: “من دمو را امتحان کردم و واقعاً حیرتآور بود که چقدر انسانی به نظر میرسید. تقریباً نگرانم که ممکن است به یک دستیار صوتی با این سطح از صدای انسانی احساس وابستگی عاطفی پیدا کنم.”
این فناوری که امکان گفتوگوهای واقعی را فراهم میکند، مقایسههایی با داستانهای علمی تخیلی به همراه داشته و نگرانیهایی درباره احتمال سوءاستفاده از آن را برانگیخته است. این مدل الگوهای گفتاری طبیعی را نشان میدهد، از جمله صدای نفس، خنده و اصلاحات خودکار—نقصهایی که برای افزایش واقعگرایی طراحی شدهاند.
شرکت سسامی در وبلاگ خود اعلام کرد: “هدف ما دستیابی به ‘حضور صوتی’ است—کیفیت جادویی که تعاملات گفتاری را واقعی، درک شده و با ارزش احساس میکند.”
با این حال، واقعگرایی این فناوری برخی کاربران را نگران کرده است. مارک هاچمن، ویرایشگر ارشد در PCWorld، تعامل خود را “عمیقاً نگرانکننده” توصیف کرد و اشاره کرد که صدای هوش مصنوعی او را به یاد یک دوست قدیمی میاندازد. دیگران CSM را با حالت صدای پیشرفته OpenAI مقایسه کرده و معتقدند که صدای سسامی طبیعیتر و جذابتر است.
شرکت سسامی که توسط برندان ایریبه، انکیت کومار و رایان براون تأسیس شده، سرمایهگذاریهایی از شرکتهای بزرگ مانند Andreessen Horowitz و Spark Capital جذب کرده است. فناوری این شرکت از یک مدل ترنسفورمر چندوجهی استفاده میکند که بر روی یک مجموعه داده وسیع آموزش دیده است و به آن اجازه میدهد تا صدایی تولید کند که در آزمایشات کور، در شرایط ایزوله با ضبطهای انسانی رقابت کند.
با وجود قابلیتهایش، CSM هنوز بینقص نیست. ایریبه گفت: “امروز، ما قطعاً در دره هستیم، اما امیدواریم بتوانیم از آن خارج شویم.” او به مشکلاتی در مورد تن، زمانبندی و سرعت اشاره کرد.
پیشرفت صدای هوش مصنوعی بسیار واقعگرا همچنین نگرانیهایی درباره تقلب ایجاد کرده است. کارشناسان هشدار میدهند که صدای تولید شده توسط هوش مصنوعی میتواند جعلهایی مانند فیشینگ صوتی را بیشتر از همیشه قانعکننده کند. برخی از خانوادهها مجبور به استفاده از کلمات مخفی برای تأیید هویت شدهاند.
در حالی که مدل فعلی سسامی صدای افراد را کپی نمیکند، فناوریهای مشابه ممکن است برای فریبکاری استفاده شوند. OpenAI پیشتر به دلیل نگرانیهای امنیتی، انتشار صدای هوش مصنوعی خود را به تأخیر انداخت.
سسامی برنامه دارد تا اجزای کلیدی تحقیق خود را به صورت متن باز منتشر کند و از حمایت زبانهای بیشتری برخوردار شود. با انسانیتر شدن صداهای هوش مصنوعی، بحث درباره پیامدهای اخلاقی آن تنها در مراحل اولیه خود قرار دارد.
- مدل گفتار محاورهای سسامی (CSM): معرفی در اواخر فوریه 2023.
- ویژگیهای واقعگرایانه: شامل الگوهای طبیعی گفتار، صدای نفس و خنده.
- نگرانیها: احتمال سوءاستفاده و تقلب با استفاده از صداهای هوش مصنوعی.
- سرمایهگذاریهای سسامی: جذب سرمایه از شرکتهای بزرگ.
- آینده سسامی: برنامه برای متن باز کردن اجزای کلیدی و افزایش پشتیبانی زبان.
با توجه به این تحولات، به نظر میرسد که فناوری صدای هوش مصنوعی در حال وارد شدن به مرحلهای جدید است و تأثیرات آن بر جامعه و ارتباطات انسانی هنوز به طور کامل مشخص نشده است.