این مدل جدید هوش مصنوعی فقط ۴۵۰ دلار خرج برمی‌دارد

25 دقیقه پیش

زمان تقریبی مطالعه 2 دقیقه

این مدل جدید هوش مصنوعی فقط ۴۵۰ دلار خرج برمی‌دارد

مدل جدید «Sky-T1» یک مدل هوش مصنوعی منبع باز است که می‌توان آن را با کمتر از ۴۵۰ دلار آموزش داد.

به گزارش ایسنا، توسعه مدل‌های موسوم به «هوش مصنوعی استدلالی» آسان‌تر و ارزان‌تر می‌شود.

به نقل از تک کرانچ، شرکت آمریکایی «نوآاسکای»(NovaSky) که حاصل همکاری گروهی از پژوهشگران «دانشگاه کالیفرنیا برکلی»(UC Berkeley) است، مدل «Sky-T1-32B-Preview» را منتشر کرد. این یک مدل استدلالی است که با نسخه o1 شرکت «اوپن‌ای‌آی»(OpenAI) در تعدادی از معیارهای کلیدی رقابت می‌کند. به نظر می‌رسد Sky-T1 اولین مدل استدلالی منبع باز واقعی است.

این گروه پژوهشی، مجموعه داده‌های مورد استفاده برای آموزش مدل و کد آموزشی آن را منتشر کردند. آنها در یک پست وبلاگ نوشتند: نکته قابل توجه این است که Sky-T1-32B-Preview با کمتر از ۴۵۰ دلار آموزش داده شد. این نشان می‌دهد که می‌توان توانایی‌های استدلالی سطح بالا را به صورت مقرون‌به‌صرفه و کارآمد تکرار کرد.

۴۵۰ دلار ممکن است چندان مقرون‌به‌صرفه به نظر نرسد اما چندی پیش بود که آموزش یک مدل با عملکرد قابل مقایسه با Sky-T1، میلیون‌ها دلار هزینه به بار آورد. داده‌های آموزشی مصنوعی یا داده های آموزشی تولید شده توسط مدل‌های دیگر، به کاهش هزینه‌ها کمک کرده‌اند. مدل «Palmyra X 004» که به تازگی توسط شرکت هوش مصنوعی «رایتر»(Writer) منتشر شده و تقریبا به طور کامل روی داده‌های مصنوعی آموزش دیده، طبق گزارش‌ها فقط ۷۰۰ هزار دلار برای توسعه هزینه داشته است.

برخلاف بیشتر مدل‌های هوش مصنوعی، مدل‌های استدلالی به ‌طور مؤثر خود را مورد بررسی قرار می‌دهند تا از برخی تله‌هایی که معمولا به مدل‌ها آسیب می‌رسانند، اجتناب کنند. مدل‌های استدلالی در مقایسه با مدل‌های غیر استدلالی معمولی، کمی بیشتر زمان می‌خواهند تا به راه‌ حل برسند. نکته مثبت این است که این مدل‌ها در حوزه‌هایی مانند فیزیک، علوم و ریاضیات قابل اعتمادتر هستند.

پژوهشگران نوآاسکای گفتند که از مدل استدلال دیگری به نام «QwQ-32B-Preview» برای تولید داده‌های آموزشی اولیه Sky-T1 استفاده کرده‌اند. سپس، پژوهشگران به مدیریت ترکیب داده‌ها پرداختند و از GPT-4o-mini شرکت اوپن‌ای‌آی استفاده کردند تا داده‌ها را به صورت قالب قابل اجرا درآورند. آموزش Sky-T1 با ۳۲ میلیارد پارامتر حدود ۱۹ ساعت با استفاده از پردازنده گرافیکی H100 شرکت «انویدیا»(Nvidia) طول کشید.

به گفته گروه نوآاسکای، Sky-T1 در مجموعه‌ای از چالش‌های ریاضی سطح رقابتی، بهتر از نسخه پیش‌نمایش اولیه o1 عمل می‌کند و پیش‌نمایش o1 را در مجموعه‌ای از مشکلات دشوار یک ارزیابی کدنویسی شکست می‌دهد.

انتهای پیام

25 دقیقه پیش

زمان تقریبی مطالعه 2 دقیقه

مشاهده بیشتر