سازمان پژوهشی
هوش مصنوعی، EleutherAI، یک مجموعه عظیم از متون با مجوز و متنهای عمومی را به نام Common Pile v0.1 رونمایی کرده است که به عنوان یکی از بزرگترین دیتاستهای تربیت مدلهای هوش مصنوعی محسوب میشود. این مجموعه که طی دو سال و با همکاری استارتاپهایی نظیر Poolside و Hugging Face و چندین نهاد دانشگاهی طراحی و گردآوری شده، وزنی معادل ۸ ترابایت دارد و به منظور آموزش دو مدل جدید هوش مصنوعی به نامهای Comma v0.1-1T و Comma v0.1-2T به کار گرفته شده است.
به گزارش ایتنا و به نقل از تککرانچ، EleutherAI اعلام کرده است که این مدلها قابلیتهای مشابهی با مدلهایی که با دادههای تحت حق نشر تربیت شدهاند، ارائه میدهند.
در حالی که شرکتهای فعال در حوزه هوش مصنوعی، از جمله OpenAI، با دعاوی حقوقی درباره استفاده از دادههای دارای حق نشر برای آموزش مدلهای خود مواجه هستند، EleutherAI اعتقاد دارد که این شکایات به کند شدن روند شفافیت در صنعت هوش مصنوعی دامن زده و به پروسههای تحقیقاتی آسیب رسانده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در نوشتهای در وبلاگ Hugging Face ذکر کرده است که این دعاوی «تغییری اساسی در شیوههای جمعآوری دادهها ایجاد نکرده اما به شدت شفافیت شرکتها را متأثر کرده است.»
مجموعه Common Pile v0.1، که با مشاورههای حقوقی شکل گرفته، منابعی از جمله ۳۰۰ هزار کتاب عمومی دیجیتالشده از سوی کتابخانه کنگره آمریکا و آرشیو اینترنت را در بر میگیرد و از مدل متنخوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن استفاده شده است.
EleutherAI بر این باور است که مدلهای Comma، که تنها روی بخشی از این مجموعه وسیع تربیت شدهاند، قابلیت رقابت با مدلهای پیشرفتهای نظیر اولین مدل Llama متا را دارند و نشانگر عملکرد چشمگیری در زمینههایی چون برنامهنویسی، درک تصویر و ریاضیات بودهاند. بیدرمن در وبلاگ خود تصریح کرده است: «این ایده که تنها متون غیر مجاز میتوانند سبب بهبود عملکرد مدلها شوند، اشتباه است و با افزایش حجم دادههای مجاز و عمومی، کیفیت مدلهای تربیتشده بر روی این دادهها نیز به طرز چشمگیری ارتقاء خواهد یافت.»
این اقدام EleutherAI بخشی از تلاشهای مستمر این سازمان برای اصلاح اشتباهات پیشین است؛ چرا که قبلا مجموعه دادهای با نام The Pile منتشر شده بود که شامل محتوای تحت حق نشر بود و با انتقادات و فشارهای حقوقی مواجه شده بود. EleutherAI قصد دارد در آینده نزدیک نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعههای داده باز بیشتری را به انتشار برساند و مسیر شفافسازی و پیشرفت در زمینه هوش مصنوعی را ادامه دهد.