EleutherAI یک پایگاه داده وسیع از متون عمومی و مجاز را برای آموزش هوش مصنوعی به اشتراک گذاشت!

سازمان پژوهشی هوش مصنوعی، EleutherAI، یک مجموعه عظیم از متون با مجوز و متن‌های عمومی را به نام Common Pile v0.1 رونمایی کرده است که به عنوان یکی از بزرگ‌ترین دیتاست‌های تربیت مدل‌های هوش مصنوعی محسوب می‌شود. این مجموعه که طی دو سال و با همکاری استارتاپ‌هایی نظیر Poolside و Hugging Face و چندین نهاد دانشگاهی طراحی و گردآوری شده، وزنی معادل ۸ ترابایت دارد و به منظور آموزش دو مدل جدید هوش مصنوعی به نام‌های Comma v0.1-1T و Comma v0.1-2T به کار گرفته شده است.

به گزارش ایتنا و به نقل از تک‌کرانچ، EleutherAI اعلام کرده است که این مدل‌ها قابلیت‌های مشابهی با مدل‌هایی که با داده‌های تحت حق نشر تربیت شده‌اند، ارائه می‌دهند.

در حالی که شرکت‌های فعال در حوزه هوش مصنوعی، از جمله OpenAI، با دعاوی حقوقی درباره استفاده از داده‌های دارای حق نشر برای آموزش مدل‌های خود مواجه هستند، EleutherAI اعتقاد دارد که این شکایات به کند شدن روند شفافیت در صنعت هوش مصنوعی دامن زده و به پروسه‌های تحقیقاتی آسیب رسانده است. استلا بیدرمن، مدیر اجرایی EleutherAI، در نوشته‌ای در وبلاگ Hugging Face ذکر کرده است که این دعاوی «تغییری اساسی در شیوه‌های جمع‌آوری داده‌ها ایجاد نکرده اما به شدت شفافیت شرکت‌ها را متأثر کرده است.»

مجموعه Common Pile v0.1، که با مشاوره‌های حقوقی شکل گرفته، منابعی از جمله ۳۰۰ هزار کتاب عمومی دیجیتال‌شده از سوی کتابخانه کنگره آمریکا و آرشیو اینترنت را در بر می‌گیرد و از مدل متن‌خوان Whisper متعلق به OpenAI برای تبدیل محتوای صوتی به متن استفاده شده است.

EleutherAI بر این باور است که مدل‌های Comma، که تنها روی بخشی از این مجموعه وسیع تربیت شده‌اند، قابلیت رقابت با مدل‌های پیشرفته‌ای نظیر اولین مدل Llama متا را دارند و نشانگر عملکرد چشم‌گیری در زمینه‌هایی چون برنامه‌نویسی، درک تصویر و ریاضیات بوده‌اند. بیدرمن در وبلاگ خود تصریح کرده است: «این ایده که تنها متون غیر مجاز می‌توانند سبب بهبود عملکرد مدل‌ها شوند، اشتباه است و با افزایش حجم داده‌های مجاز و عمومی، کیفیت مدل‌های تربیت‌شده بر روی این داده‌ها نیز به طرز چشمگیری ارتقاء خواهد یافت.»

این اقدام EleutherAI بخشی از تلاش‌های مستمر این سازمان برای اصلاح اشتباهات پیشین است؛ چرا که قبلا مجموعه داده‌ای با نام The Pile منتشر شده بود که شامل محتوای تحت حق نشر بود و با انتقادات و فشارهای حقوقی مواجه شده بود. EleutherAI قصد دارد در آینده نزدیک نیز با همکاری شرکای تحقیقاتی و زیرساختی خود، مجموعه‌های داده باز بیشتری را به انتشار برساند و مسیر شفاف‌سازی و پیشرفت در زمینه هوش مصنوعی را ادامه دهد.

EleutherAI یک پایگاه داده وسیع از متون عمومی و مجاز را برای آموزش هوش مصنوعی به اشتراک گذاشت!

آخرین اخبار

تبلیغات متنی

درباره دولت نیوز

دسته بندی