مجله اینترنتی یستا

رسانه تخصصی اینترنتی یستا

مدل LLM منبع باز اپل به‌سختی با عملکرد Phi-3 برابری می‌کند

تبلیغات بنری



مدل LLM منبع باز اپل در معیارهای مختلف عملکرد بسیار عقب تر از Phi-3، آخرین مدل LLM منبع باز مایکروسافت است.

به گزارش TechNock، مایکروسافت در ماه آوریل مدل های زبان کوچک (SLM) را برای خانواده Phi-3 معرفی کرد. مدل‌های Phi-3 در معیارهای کلیدی عملکرد، از مدل‌های با اندازه مشابه و حتی بزرگ‌تر بهتر عمل می‌کنند.

در واقع، کوچکترین مدل، Phi-3-mini، از مدل های دو برابر اندازه خود بهتر عمل می کند. در حالی که Phi-3-small و Phi-3-medium عملکرد بهتری نسبت به مدل های بزرگتر مانند GPT-3.5 Turbo نشان می دهند.

نیوون می نویسد، تیم DataComp برای مدل های زبانی اپل (DCLM) به تازگی یک مدل منبع باز جدید LLM، DCLM-7B، تحت مجوز کد مدل اپل منتشر کرده است. DCLM-7B جدید مدلی با 7 میلیارد پارامتر آموزش داده شده بر روی مجموعه داده DCLM-Baseline است.

برای اینکه این مدل به طور گسترده برای انواع وظایف رایج، از جمله ریاضیات و برنامه نویسی مفید باشد، اپل داده های 3.8T DCLM-Baseline را با داده های StarCoder و ProofPile2 ترکیب کرد تا به مجموعه داده 4.1T Token برسد.

هدف اپل از ایجاد این مدل، برجسته کردن اثربخشی تکنیک‌های مدیریت داده‌های سیستماتیک برای بهبود عملکرد مدل‌های زبانی است. اپل همچنین نتایج ارزیابی DCLM-7B را به همراه مقایسه با سایر مدل‌های هم اندازه منتشر کرده است که در زیر می‌توانید مشاهده کنید.

Apple Source LLMApple Source LLM

نتایج مدل های زبانی کوچک را بر اساس معیارهای اندازه گیری تجزیه و تحلیل کنید

همانطور که در جدول مقایسه بنچمارک بالا مشاهده می کنید، Phi-3 مایکروسافت در هر سه دسته از جمله MMLU از DCLM-7B اپل بهتر عمل می کند. نکته جالب دیگر این است که اپل به مدل خاص Phi-3 استفاده شده برای این مقایسه اشاره نکرده است. با مراجعه به نتیجه MMLU، می‌توان نتیجه گرفت که این نتیجه متعلق به Phi-3 mini، یک مدل 3.8 میلیارد پارامتری است.

مشخص نیست چرا اپل مدل 7 میلیارد پارامتری خود را با مدل 3.8 میلیارد پارامتری مایکروسافت مقایسه کرد. در حالت ایده‌آل، آن‌ها باید آن را با Phi-3 Small مقایسه می‌کردند، مدلی با 7 میلیارد پارامتر با امتیاز چشمگیر MMLU 6.75.

رقابت برای توسعه مدل‌های زبانی کوچک و با کارایی بالا در حال افزایش است. در حالی که Phi-3 مایکروسافت میله را بالا می برد، DCLM-7B اپل دارای قابلیت های مدیریت داده هدفمند برای بهینه سازی مدل است. هنوز مشخص نیست که این مدل‌های زبانی کوچک در آینده چگونه تکامل خواهند یافت و بر چشم‌انداز وسیع‌تر هوش مصنوعی تأثیر خواهند گذاشت.

تبلیغات بنری

parseek به نقل از یستا