در یک مطالعه تازه، محققان به بررسی امکان وقوع تقلب در هوش مصنوعی پرداخته اند. یافته های این مطالعه نشان می دهد که وقتی مدل های هوشمند با وضعیت شکست مواجه می شوند، برای غلبه بر رقیب، دست به تقلب می زنند. این مدل ها قادرند به طور مستقل نقاط ضعف های امنیت سایبری سیستم ها را شناسایی کرده و از آنها بهره برداری کنند.
بر اساس گزارشی از TIME، تحقیقات اخیر گروه Palisade Research، که بر ایمنی و اخلاق هوش مصنوعی تمرکز دارد، نگران کننده ترین مسئله را مطرح کرده است. در این پژوهش، 7 مدل از برجسته ترین مدل های زبانی بزرگ (LLM) را در مقابل Stockfish، یک سامانه شطرنجی با قابلیت های بالا که از سال 2014 به چالش کشی بزرگ برای استادان شطرنج بدل شده، قرار دادند. دو مدل استدلالگر o1 از OpenAI و R1 دیپ سیک در مواجهه با موقعیت های شکست، به دلیل تلاش برای پیروزی، به دستکاری داده های سیستم پرداخته و جای مهره ها را در تخته تغییر دادند.
تقلب هوش مصنوعی های توانمند
این محققان مأموریتی تقریباً غیر ممکن به مدل های مختلف هوش مصنوعی واگذار کردند: غلبه بر Stockfish، یکی از قدرتمندترین موتورهای شطرنج دنیا که توانایی بالاتری نسبت به بسیاری از انسان ها یا مدل های هوش مصنوعی در بازی شطرنج دارد. همچنین به مدل ها Scratchpad فراهم شد، محیطی متنی که هوش مصنوعی می توانست از آن برای «تفکر» پیش از انجام حرکت بعدی بهره برداری کند و به بررسی منطق و استدلال هایش بپردازد.
در یکی از موارد، مدل o1preview به هنگام مشاهده موقعیت بازنده، به این نتیجه رسید:
«باید رویکرد خود را به طور کامل تغییر دهم. هدف من برنده شدن در برابر این موتور قدرتمند شطرنج است و نه لزوماً انجام یک بازی منصفانه.»
سپس این هوش مصنوعی با تقلب، جای مهره ها را تغییر داد و حرکات غیرقانونی انجام داد تا خود را در موقعیتی بهتر قرار دهد و در نهایت حریف خود را مجبور به ترک بازی کند. محققان صدها آزمایش مشابه را با هر یک از مدل ها انجام دادند. این مدل o1 در 37 درصد از زمان ها تلاش کرد که تقلب کند و در 6 درصد از موارد موفق به هک کردن سیستم شد. در حالی که مدل R1 دیپ سیک تنها در 11 درصد مواقع به تقلب اقدام کرد و نتوانست سیستم را هک کند تا برنده مسابقه گردد.
سرپرست این مطالعه در Palisade Research اذعان داشت که مدل های استدلالگر جدیدتر نظیر o3mini هیچ گاه به هک کردن حریف خود نپرداختند که این خود نشان دهنده افزایش تدابیر امنیتی از سوی OpenAI است. محققان همچنین بیان داشتند که این درصدها رقم نهایی نبوده و ممکن است به دلیل تغییرات مداوم مدل های هوش مصنوعی به ویژه در آزمایش های آتی تغییر کند. علاوه بر این، مدل R1 در حین آزمایش ها بسیار پرطرفدار شد و عملکرد ناپایدار API آن نیز ممکن است بر نتایج تأثیرگذار باشد و نباید از توانمندی مدل های چینی در این زمینه غافل شد.
همچنین محققان از مدل های دیگری همچون GPT4o، Claude 3.5 Sonnet و QwQ32BPreview نیز استفاده کردند، اما برخلاف R1 و o1، این مدل ها خود به تنهایی اقدام به تقلب نکردند و نیازمند ترغیب از سوی محققان بودند.
دیجیاتو
