مدل صدای هوش مصنوعی: شگفتی و نگرانی کاربران با واقع‌گرایی حیرت‌انگیز

مدل صدای هوش مصنوعی: شگفتی و نگرانی کاربران با واقع‌گرایی حیرت‌انگیز

مدل صدای هوش مصنوعی جدیدی از استارتاپ سسامی با واقع‌گرایی نزدیک به انسان، کاربران را شگفت‌زده کرده و تحسین و نگرانی‌هایی را به همراه داشته است. این مدل، تحت عنوان مدل گفتار محاوره‌ای سسامی (CSM) در اواخر فوریه معرفی شده و به مرز “دره غیرقابل تحمل” صدای تولید شده توسط هوش مصنوعی رسیده است. کاربران واکنش‌های احساسی خود را نسبت به صداهای آن، “مایلز” و “مایا” به اشتراک گذاشته‌اند.

یکی از کاربران در Hacker News نوشت: “من دمو را امتحان کردم و واقعاً حیرت‌آور بود که چقدر انسانی به نظر می‌رسید. تقریباً نگرانم که ممکن است به یک دستیار صوتی با این سطح از صدای انسانی احساس وابستگی عاطفی پیدا کنم.”

این فناوری که امکان گفت‌وگوهای واقعی را فراهم می‌کند، مقایسه‌هایی با داستان‌های علمی تخیلی به همراه داشته و نگرانی‌هایی درباره احتمال سوءاستفاده از آن را برانگیخته است. این مدل الگوهای گفتاری طبیعی را نشان می‌دهد، از جمله صدای نفس، خنده و اصلاحات خودکار—نقص‌هایی که برای افزایش واقع‌گرایی طراحی شده‌اند.

شرکت سسامی در وبلاگ خود اعلام کرد: “هدف ما دستیابی به ‘حضور صوتی’ است—کیفیت جادویی که تعاملات گفتاری را واقعی، درک شده و با ارزش احساس می‌کند.”

با این حال، واقع‌گرایی این فناوری برخی کاربران را نگران کرده است. مارک هاچمن، ویرایشگر ارشد در PCWorld، تعامل خود را “عمیقاً نگران‌کننده” توصیف کرد و اشاره کرد که صدای هوش مصنوعی او را به یاد یک دوست قدیمی می‌اندازد. دیگران CSM را با حالت صدای پیشرفته OpenAI مقایسه کرده و معتقدند که صدای سسامی طبیعی‌تر و جذاب‌تر است.

شرکت سسامی که توسط برندان ایریبه، انکیت کومار و رایان براون تأسیس شده، سرمایه‌گذاری‌هایی از شرکت‌های بزرگ مانند Andreessen Horowitz و Spark Capital جذب کرده است. فناوری این شرکت از یک مدل ترنسفورمر چندوجهی استفاده می‌کند که بر روی یک مجموعه داده وسیع آموزش دیده است و به آن اجازه می‌دهد تا صدایی تولید کند که در آزمایشات کور، در شرایط ایزوله با ضبط‌های انسانی رقابت کند.

READ  ظهور واریانت جدید امپوکس؛ نگرانی‌ها افزایش می‌یابد؛ کارشناسان از قابلیت انتقال بالا هشدار می‌دهند!

با وجود قابلیت‌هایش، CSM هنوز بی‌نقص نیست. ایریبه گفت: “امروز، ما قطعاً در دره هستیم، اما امیدواریم بتوانیم از آن خارج شویم.” او به مشکلاتی در مورد تن، زمان‌بندی و سرعت اشاره کرد.

پیشرفت صدای هوش مصنوعی بسیار واقع‌گرا همچنین نگرانی‌هایی درباره تقلب ایجاد کرده است. کارشناسان هشدار می‌دهند که صدای تولید شده توسط هوش مصنوعی می‌تواند جعل‌هایی مانند فیشینگ صوتی را بیشتر از همیشه قانع‌کننده کند. برخی از خانواده‌ها مجبور به استفاده از کلمات مخفی برای تأیید هویت شده‌اند.

در حالی که مدل فعلی سسامی صدای افراد را کپی نمی‌کند، فناوری‌های مشابه ممکن است برای فریب‌کاری استفاده شوند. OpenAI پیش‌تر به دلیل نگرانی‌های امنیتی، انتشار صدای هوش مصنوعی خود را به تأخیر انداخت.

سسامی برنامه دارد تا اجزای کلیدی تحقیق خود را به صورت متن باز منتشر کند و از حمایت زبان‌های بیشتری برخوردار شود. با انسانی‌تر شدن صداهای هوش مصنوعی، بحث درباره پیامدهای اخلاقی آن تنها در مراحل اولیه خود قرار دارد.

  • مدل گفتار محاوره‌ای سسامی (CSM): معرفی در اواخر فوریه 2023.
  • ویژگی‌های واقع‌گرایانه: شامل الگوهای طبیعی گفتار، صدای نفس و خنده.
  • نگرانی‌ها: احتمال سوءاستفاده و تقلب با استفاده از صداهای هوش مصنوعی.
  • سرمایه‌گذاری‌های سسامی: جذب سرمایه از شرکت‌های بزرگ.
  • آینده سسامی: برنامه برای متن باز کردن اجزای کلیدی و افزایش پشتیبانی زبان.

با توجه به این تحولات، به نظر می‌رسد که فناوری صدای هوش مصنوعی در حال وارد شدن به مرحله‌ای جدید است و تأثیرات آن بر جامعه و ارتباطات انسانی هنوز به طور کامل مشخص نشده است.

نوشته‌های مشابه