صدای نزدیک‌تر به انسان، ترجمه فوری و تعاملات واقعی‌تر؛ پیشرفت جدید در نسخه صوتی ChatGPT

2 روز پیش

زمان تقریبی مطالعه 2 دقیقه

صدای انسان‌گونه‌تر، ترجمه همزمان و تعامل واقعی‌تر؛ تحول تازه در نسخه صوتی ChatGPT

شرکت OpenAI در جدیدترین به‌روزرسانی خود، عملکرد صوتی دستیار هوشمند ChatGPT را به طرز قابل‌توجهی بهبود بخشیده است؛ این به‌روزرسانی نه تنها به طبیعی‌تر بودن صدای تولید شده کمک کرده، بلکه قابلیت ترجمه همزمان مکالمات را برای کاربران فراهم آورده است.

بر اساس گزارش ایتنا و نقل از The Decoder، اطلاعات رسمی منتشر شده از سوی OpenAI نشان می‌دهد که نسخه جدید «حالت پیشرفته صوتی» (Advanced Voice Mode) اکنون توانایی بیشتری برای تولید صداهایی با لحن طبیعی، حس همدلی، طعنه، مکث‌های انسانی و حتی ابراز عواطف پیدا کرده است.

این بدان معناست که ChatGPT می‌تواند احساسات را به طور مؤثری در صدایش بروز دهد؛ از پاسخ‌های همدردی‌ آمیز تا بیان طعنه‌آمیز.

ترجمه همزمان، بدون هیچ وقفه‌ای

یکی از ویژگی‌های بارز افزوده شده در این نسخه، قابلیت «ترجمه همزمان گفت‌وگو» میان زبان‌های مختلف است. کاربران می‌توانند از ChatGPT درخواست کنند که یک مکالمه را بین دو زبان خاص به صورت زنده ترجمه کند.

OpenAI پیشنهاد می‌کند که این قابلیت می‌تواند در موقعیت‌های عملی همچون سفارش غذا در رستورانی خارج از کشور، برگزاری جلسات کاری چندزبانه یا حتی گفت‌وگو با یک گردشگر در خیابان بسیار کارآمد باشد.

شایان ذکر است که شرکت‌هایی نظیر گوگل نیز به تازگی ویژگی‌های مشابهی را در اپلیکیشن Gemini ارائه کرده‌اند، با این حال OpenAI سعی دارد با تمرکز بر کیفیت صدا، تطابق عاطفی و تعامل طبیعی، تجربه‌ای متفاوت و متمرکز بر کاربر ایجاد کند.

چالش‌هایی که هنوز موجودند

با وجود این تحولات، OpenAI به صراحت اذعان کرده که برخی نواقص در عملکرد صوتی این سیستم هنوز پابرجاست. یکی از این مسائل، «افت کیفیت صدا» به‌طور مقطعی است که ممکن است با تغییر ناگهانی در زیر و بم (pitch) یا شدت صدا (volume) همراه باشد. این مشکل در برخی از گزینه‌های صوتی انتخابی کاربران بیشتر نمایان است.

چالش دیگر، پدیده‌ای به نام «توهم صوتی» (audio hallucination) است—حالتی که در آن ChatGPT صداهایی را تولید می‌کند که هیچگاه از آن درخواست نشده است. این صداها گاهی به شکل نویزهای بی‌معنی، گاهی به صورت قطعاتی از موسیقی پس‌زمینه و برخی اوقات شبیه به تبلیغات رادیویی ظاهر می‌شوند.

در یکی از موارد گزارش شده به دست آمده، ChatGPT در میانه یک مکالمه به‌طور ناگهانی صدای تبلیغاتی پخش کرد؛ در شرایطی که OpenAI هیچ‌گونه تبلیغاتی در پلتفرم خود ارائه نمی‌دهد. این موضوع سوالات زیادی در مورد منشأ این صداها و تأثیر داده‌های آموزشی در ایجاد چنین رفتارهایی مطرح کرده است.

از مکالمه ماشینی تا همراهی انسانی

ویژگی صوتی پیشرفته ChatGPT نخستین بار در ماه مه ۲۰۲۴ به‌صورت آزمایشی عرضه شد و از اکتبر همان سال، دسترسی آن به کاربران اتحادیه اروپا گسترش یافت.

گفته می‌شود هدف اصلی OpenAI از توسعه این ویژگی، فراهم کردن تجربه‌ای روان، انسانی و زنده برای مکالمه میان انسان و ماشین بوده است؛ مکالمه‌ای که در آن کاربر بتواند مانند یک گفت‌وگوی تلفنی، وسط صحبت‌های دستیار هوشمند را قطع کند، احساسات خود را منتقل سازد و بدل به پاسخ‌های انسانی بشنود.

از دیگر امکانات این نسخه، توانایی ChatGPT در تفسیر بصری است. اگر کاربر دوربین دستگاه را فعال کند، این هوش مصنوعی می‌تواند به‌صورت زنده اشیای موجود در تصویر یا محیط اطراف را شناسایی و درباره آن‌ها اظهار نظر نماید؛ قابلیتی که کاربردهای متعدد از آموزش تا راهنمایی مسافران را شامل می‌شود.

آینده‌ای نزدیک با مترجمان هوشمند و همراهان صوتی

به نظر می‌رسد با پیشرفت این قابلیت‌ها، فاصله بین انسان و هوش مصنوعی به سرعت در حال کاهش است. اگر روزگاری ترجمه همزمان یا صدای طبیعی تنها در فیلم‌های علمی‌ تخیلی قابل تصور بود، اکنون این امکانات در دسترس هر کاربری با یک گوشی هوشمند قرار دارند.

با این حال، کارشناسان هوش مصنوعی هشدار می‌دهند که نباید فراموش شود این ابزارها هنوز از درک واقعی زبان و احساسات انسانی بی‌بهره‌اند و عمدتاً بر اساس الگوهای آماری کار می‌کنند. بنابراین، بهره‌برداری مؤثر از این فناوری‌ها نیازمند آگاهی و شناخت محدودیت‌های آن‌ها است.

2 روز پیش

زمان تقریبی مطالعه 2 دقیقه

مشاهده بیشتر