مدل LLM منبع باز اپل در معیارهای مختلف عملکرد بسیار عقب تر از Phi-3، آخرین مدل LLM منبع باز مایکروسافت است.
به گزارش TechNock، مایکروسافت در ماه آوریل مدل های زبان کوچک (SLM) را برای خانواده Phi-3 معرفی کرد. مدلهای Phi-3 در معیارهای کلیدی عملکرد، از مدلهای با اندازه مشابه و حتی بزرگتر بهتر عمل میکنند.
در واقع، کوچکترین مدل، Phi-3-mini، از مدل های دو برابر اندازه خود بهتر عمل می کند. در حالی که Phi-3-small و Phi-3-medium عملکرد بهتری نسبت به مدل های بزرگتر مانند GPT-3.5 Turbo نشان می دهند.
نیوون می نویسد، تیم DataComp برای مدل های زبانی اپل (DCLM) به تازگی یک مدل منبع باز جدید LLM، DCLM-7B، تحت مجوز کد مدل اپل منتشر کرده است. DCLM-7B جدید مدلی با 7 میلیارد پارامتر آموزش داده شده بر روی مجموعه داده DCLM-Baseline است.
برای اینکه این مدل به طور گسترده برای انواع وظایف رایج، از جمله ریاضیات و برنامه نویسی مفید باشد، اپل داده های 3.8T DCLM-Baseline را با داده های StarCoder و ProofPile2 ترکیب کرد تا به مجموعه داده 4.1T Token برسد.
هدف اپل از ایجاد این مدل، برجسته کردن اثربخشی تکنیکهای مدیریت دادههای سیستماتیک برای بهبود عملکرد مدلهای زبانی است. اپل همچنین نتایج ارزیابی DCLM-7B را به همراه مقایسه با سایر مدلهای هم اندازه منتشر کرده است که در زیر میتوانید مشاهده کنید.
نتایج مدل های زبانی کوچک را بر اساس معیارهای اندازه گیری تجزیه و تحلیل کنید
همانطور که در جدول مقایسه بنچمارک بالا مشاهده می کنید، Phi-3 مایکروسافت در هر سه دسته از جمله MMLU از DCLM-7B اپل بهتر عمل می کند. نکته جالب دیگر این است که اپل به مدل خاص Phi-3 استفاده شده برای این مقایسه اشاره نکرده است. با مراجعه به نتیجه MMLU، میتوان نتیجه گرفت که این نتیجه متعلق به Phi-3 mini، یک مدل 3.8 میلیارد پارامتری است.
مشخص نیست چرا اپل مدل 7 میلیارد پارامتری خود را با مدل 3.8 میلیارد پارامتری مایکروسافت مقایسه کرد. در حالت ایدهآل، آنها باید آن را با Phi-3 Small مقایسه میکردند، مدلی با 7 میلیارد پارامتر با امتیاز چشمگیر MMLU 6.75.
رقابت برای توسعه مدلهای زبانی کوچک و با کارایی بالا در حال افزایش است. در حالی که Phi-3 مایکروسافت میله را بالا می برد، DCLM-7B اپل دارای قابلیت های مدیریت داده هدفمند برای بهینه سازی مدل است. هنوز مشخص نیست که این مدلهای زبانی کوچک در آینده چگونه تکامل خواهند یافت و بر چشمانداز وسیعتر هوش مصنوعی تأثیر خواهند گذاشت.
parseek به نقل از یستا
مطالب مرتبط
افغانستان و ایران تفاهمنامه اتصال شبکههای اینترنت امضا کردند
آیا مدارس اصفهان فردا چهارشنبه (۵ دی ۱۴۰۳) تعطیل است؟
خروج نیروهای فرانسوی از جمهوری چاد (یکم دی ۱۴۰۳)