متا با معرفی مدلهای هوش مصنوعی لاما ۴، در تلاش برای بازپسگیری برتری در رقابت با OpenAI
در این هفته، متا نسل جدیدی از مدلهای هوش مصنوعی را معرفی کرد و مجموعه Llama 4 را به بازار عرضه کرد تا با رقبای اصلی مانند OpenAI و گوگل رقابت کند. این مدلهای جدید بهطور خاص برای انجام وظایفی از جمله خلاصهسازی اسناد و استدلال چندرسانهای طراحی شدهاند. در ادامه به جزئیات بیشتری درباره این مدلها و ویژگیهای آنها خواهیم پرداخت.
متا در تاریخ 5 آوریل، سه مدل جدید هوش مصنوعی به نامهای Scout، Maverick و Behemoth را معرفی کرد. این رونمایی بهعنوان یک قدم بزرگ در راستای اهداف متنباز متا در حوزه هوش مصنوعی به شمار میآید. این مدلها به گونهای طراحی شدهاند که قادر به پردازش متن، تصویر و ویدئو باشند.
مدلهای Llama 4 بر اساس معماری mixture of experts (MoE) ساخته شدهاند که با تخصیص وظایف به اجزای تخصصی درون سیستم، کارایی را افزایش میدهد. متا ادعا میکند که مدل پرچمدار خود، Maverick، در چندین معیار مربوط به کدنویسی، استدلال و تفسیر تصویر، از GPT-4o OpenAI و Gemini 2.0 گوگل پیشی گرفته است. اما در مقایسه با GPT-4.5 OpenAI و Gemini 2.5 Pro، به نظر میرسد که این مدلها از آنها عقبتر هستند.
مدلهای Scout و Maverick در حال حاضر در وبسایت متا و همچنین از طریق شرکای مانند Hugging Face در دسترس هستند، اما با محدودیتهایی در استفاده. متا بهدلیل قوانین سختگیرانه هوش مصنوعی و حریم خصوصی در اتحادیه اروپا، دسترسی به این مدلها را برای کاربران و توسعهدهندگان در این منطقه محدود کرده است. این شرکت پیشتر موضع اتحادیه اروپا را در این زمینه بهعنوان چیزی بیش از حد سختگیرانه و مضر برای نوآوری انتقاد کرده است.
این رونمایی در شرایطی انجام میشود که رقابت در بخش هوش مصنوعی متنباز به شدت افزایش یافته است، بهویژه پس از پیشرفتهای سریع آزمایشگاه هوش مصنوعی چینی DeepSeek. مدلهای DeepSeek، بهویژه R1 و V3، عملکرد Llama 2 را به چالش کشیدهاند و متا را وادار کردهاند تا توسعه Llama 4 را تسریع بخشد. در پاسخ، متا reportedly “جنگخانههای داخلی” برای تحلیل و تکرار دستاوردهای کارایی DeepSeek ایجاد کرده است.
در میان مدلهای جدید، Scout سبکترین مدل است که شامل 17 میلیارد پارامتر فعال و یک پنجره متنی با ظرفیت 10 میلیون توکن است. این ویژگی Scout را برای پردازش اسناد طولانی و پایگاههای داده کد مناسب میسازد و کاربردهایی در زمینههای دانشگاهی، حقوقی و تحلیل دادههای شرکتی دارد. همچنین بهگونهای بهینهسازی شده است که روی یک GPU Nvidia H100 اجرا شود و امکان پیادهسازیهای کوچکمقیاس را فراهم کند.
Maverick که شامل 400 میلیارد پارامتر (با 17 میلیارد پارامتر فعال در 128 کارشناس) است، برای وظایف عمومی هوش مصنوعی مانند درک زبان و نویسندگی خلاق طراحی شده است. برای اجرای Maverick به زیرساختهای محاسباتی سطح شرکتی نیاز است، از جمله سیستمهای DGX شرکت Nvidia.
مدل سوم، Behemoth، هنوز در حال آموزش است. طبق گفته متا، انتظار میرود که این مدل در معیارهای مربوط به STEM از رقبای خود پیشی بگیرد. Behemoth شامل 288 میلیارد پارامتر فعال و تقریباً دو تریلیون پارامتر در کل است که آن را به یکی از بزرگترین مدلهای هوش مصنوعی عمومی توصیف شده تا به امروز تبدیل میکند. آزمایشهای اولیه نشان میدهد که این مدل ممکن است در حل مسائل ریاضی و علمی پیشرفته از GPT-4.5، Claude 3.7 Sonnet و Gemini 2.0 Pro پیشی بگیرد. با این حال، Gemini 2.5 Pro reportedly در چندین زمینه کلیدی مزیتی دارد.