دوشنبه 31 فروردین 1405

EleutherAI یک پایگاه داده وسیع از متون عمومی و مجاز را برای آموزش هوش مصنوعی به اشتراک گذاشت!

سازمان پژوهشی هوش مصنوعی، EleutherAI، یک مجموعه عظیم از متون با مجوز و متن‌های عمومی را به نام Common Pile v0.1 رونمایی کرده است که به عنوان یکی از بزرگ‌ترین دیتاست‌های تربیت مدل‌های هوش مصنوعی محسوب می‌شود. این مجموعه که طی دو سال و با همکاری استارتاپ‌هایی نظیر Poolside و Hugging Face و چندین نهاد دانشگاهی طراحی و گردآوری شده، وزنی معادل ۸ ترابایت دارد و به منظور آموزش دو مدل جدید هوش مصنوعی به نام‌های Comma v0.1-1T و Comma v0.1-2T به کار گرفته شده است.

به گزارش ایتنا و به نقل از تک‌کرانچ، EleutherAI اعلام کرده است که این مدل‌ها قابلیت‌های مشابهی با مدل‌هایی که با داده‌های تحت حق نشر تربیت شده‌اند، ارائه می‌دهند.
 

در حالی که شرکت‌های فعال در حوزه هوش مصنوعی، از جمله OpenAI، با دعاوی حقوقی درباره استفاده از داده‌های دارای حق نشر برای آموزش مدل‌های خود مواجه هستند، EleutherAI اعتقاد دارد که این شکایات به کند شدن روند شفافیت در صنعت هوش مصنوعی دامن زده و به پروسه‌های تحقیقاتی آسیب رسانده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در نوشته‌ای در وبلاگ Hugging Face ذکر کرده است که این دعاوی «تغییری اساسی در شیوه‌های جمع‌آوری داده‌ها ایجاد نکرده اما به شدت شفافیت شرکت‌ها را متأثر کرده است.»

مجموعه Common Pile v0.1، که با مشاوره‌های حقوقی شکل گرفته، منابعی از جمله ۳۰۰ هزار کتاب عمومی دیجیتال‌شده از سوی کتابخانه کنگره آمریکا و آرشیو اینترنت را در بر می‌گیرد و از مدل متن‌خوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن استفاده شده است.

 

EleutherAI بر این باور است که مدل‌های Comma، که تنها روی بخشی از این مجموعه وسیع تربیت شده‌اند، قابلیت رقابت با مدل‌های پیشرفته‌ای نظیر اولین مدل Llama متا را دارند و نشانگر عملکرد چشم‌گیری در زمینه‌هایی چون برنامه‌نویسی، درک تصویر و ریاضیات بوده‌اند. بیدرمن در وبلاگ خود تصریح کرده است: «این ایده که تنها متون غیر مجاز می‌توانند سبب بهبود عملکرد مدل‌ها شوند، اشتباه است و با افزایش حجم داده‌های مجاز و عمومی، کیفیت مدل‌های تربیت‌شده بر روی این داده‌ها نیز به طرز چشمگیری ارتقاء خواهد یافت.»

این اقدام EleutherAI بخشی از تلاش‌های مستمر این سازمان برای اصلاح اشتباهات پیشین است؛ چرا که قبلا مجموعه داده‌ای با نام The Pile منتشر شده بود که شامل محتوای تحت حق نشر بود و با انتقادات و فشارهای حقوقی مواجه شده بود. EleutherAI قصد دارد در آینده نزدیک نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه‌های داده باز بیشتری را به انتشار برساند و مسیر شفاف‌سازی و پیشرفت در زمینه هوش مصنوعی را ادامه دهد.

آخرین اخبار

کاهش 15 درصدی قیمت اوراق مسکن/ هزینه وام تا این رقم کاهش یافت

به گزارش خبرگزاری خبرآنلاین، قیمت هر...

تکذیب خبرهای منتشرشده درباره دور دوم مذاکرات در اسلام‌آباد

به گزارش خبرآنلاین به نقل از ایرنا، خبرهای منتشر...

ایران واجد شرایط درآمدزایی از تنگه هرمز می‌باشد

به نقل از خبرآنلاین، «مریم جمشیدی» استاد حوزه حقوق...

اهدای نشان فداکاری به خانواده سپهبد موسوی

به گزارش خبرگزاری خبرآنلاین، امیر سرلشکر «امیر حاتمی» فرمانده...

زمان خرید طلا فرارسید؟ – خبرآنلاین

به گزارش خبرآنلاین،نادر بذرافشان در تشریح چشم انداز بازار داخلی...

شکل‌گیری بحث‌ها بین وزرای خارجه انگلیس و پاکستان درباره مسائل منطقه‌ای

طبق گزارش خبرگزاری خبرآنلاین، «ایوت کوپر» وزیر خارجه بریتانیا...

بیانیه ۴۲نماینده مجلس علیه تصمیمات راهبردی نظام؟ / این بار چه کسانی قرار است دیپلماسی را تخریب کنند؟

به گزارش خبرگزاری خبرآنلاین، تعدادی از نمایندگان مجلس علیه دور...

گزارش تازه نیویورک تایمز از زرادخانه ایران

به گزارش خبرآنلاین به نقل از روزنامه آمریکایی نیویورک...

پنالتی‌ها درخشش ال‌چولو را به سایه می‌سایند؛ سوسیداد برای سومین بار قهرمان کوپادل‌ری می‌شود

استادیوم لاکارتوخا شاهد برگزاری دیدار پایانی جام حذفی اسپانیا،...

خطیب‌زاده: هیچ یورانیوم غنی‌شده‌ای به ایالات متحده منتقل نخواهد شد

به گزارش ایسنا، «سعید خطیب‌زاده»، معاون وزیر امور خارجه...

دانشمندان هورمون طبیعی را کشف کرده‌اند که می‌تواند چاقی را معکوس کند

پایگاه خبری تحلیلی انتخاب (Entekhab.ir) : دیجیاتو:...

واکنش سازمان هواپیمایی به فروش بلیت توسط برخی سایت‌ها

به گزارش خبرآنلاین،مقصود اسعدی سامانی در خصوص بازگشایی ۶...

آمریکا با جنگ ایران خود را در یک دام «خودساخته» گرفتار کرد

به گزارش خبرآنلاین، پروفسور گریگوری ای. ددیس (Gregory A....

هواشناسی: بارش باران و کاهش دما در تهران

پایگاه خبری تحلیلی انتخاب (Entekhab.ir) : ایسنا:...

رئیس سازمان عقیدتی سیاسی فراجا: نتایج این نبرد شفاف است و ملت ایران بر تنگه هرمز تسلط دارد

به گزارش خبرگزاری خبرآنلاین، حجت‌الاسلام «علی شیرازی»، رئیس سازمان...

استراتژیست جمهوری‌خواه: ترامپ در پیش‌چشم ما به سرنوشتش می‌رسد

به نقل از خبرآنلاین، در اپیزود اخیر پادکست «لفت...

تبلیغات متنی