صدای نزدیکتر به انسان، ترجمه فوری و تعاملات واقعیتر؛ پیشرفت جدید در نسخه صوتی ChatGPT

بر اساس گزارش ایتنا و نقل از The Decoder، اطلاعات رسمی منتشر شده از سوی OpenAI نشان میدهد که نسخه جدید «حالت پیشرفته صوتی» (Advanced Voice Mode) اکنون توانایی بیشتری برای تولید صداهایی با لحن طبیعی، حس همدلی، طعنه، مکثهای انسانی و حتی ابراز عواطف پیدا کرده است.
این بدان معناست که ChatGPT میتواند احساسات را به طور مؤثری در صدایش بروز دهد؛ از پاسخهای همدردی آمیز تا بیان طعنهآمیز.
ترجمه همزمان، بدون هیچ وقفهای
یکی از ویژگیهای بارز افزوده شده در این نسخه، قابلیت «ترجمه همزمان گفتوگو» میان زبانهای مختلف است. کاربران میتوانند از ChatGPT درخواست کنند که یک مکالمه را بین دو زبان خاص به صورت زنده ترجمه کند.
OpenAI پیشنهاد میکند که این قابلیت میتواند در موقعیتهای عملی همچون سفارش غذا در رستورانی خارج از کشور، برگزاری جلسات کاری چندزبانه یا حتی گفتوگو با یک گردشگر در خیابان بسیار کارآمد باشد.
شایان ذکر است که شرکتهایی نظیر گوگل نیز به تازگی ویژگیهای مشابهی را در اپلیکیشن Gemini ارائه کردهاند، با این حال OpenAI سعی دارد با تمرکز بر کیفیت صدا، تطابق عاطفی و تعامل طبیعی، تجربهای متفاوت و متمرکز بر کاربر ایجاد کند.
چالشهایی که هنوز موجودند
با وجود این تحولات، OpenAI به صراحت اذعان کرده که برخی نواقص در عملکرد صوتی این سیستم هنوز پابرجاست. یکی از این مسائل، «افت کیفیت صدا» بهطور مقطعی است که ممکن است با تغییر ناگهانی در زیر و بم (pitch) یا شدت صدا (volume) همراه باشد. این مشکل در برخی از گزینههای صوتی انتخابی کاربران بیشتر نمایان است.
چالش دیگر، پدیدهای به نام «توهم صوتی» (audio hallucination) است—حالتی که در آن ChatGPT صداهایی را تولید میکند که هیچگاه از آن درخواست نشده است. این صداها گاهی به شکل نویزهای بیمعنی، گاهی به صورت قطعاتی از موسیقی پسزمینه و برخی اوقات شبیه به تبلیغات رادیویی ظاهر میشوند.
در یکی از موارد گزارش شده به دست آمده، ChatGPT در میانه یک مکالمه بهطور ناگهانی صدای تبلیغاتی پخش کرد؛ در شرایطی که OpenAI هیچگونه تبلیغاتی در پلتفرم خود ارائه نمیدهد. این موضوع سوالات زیادی در مورد منشأ این صداها و تأثیر دادههای آموزشی در ایجاد چنین رفتارهایی مطرح کرده است.
از مکالمه ماشینی تا همراهی انسانی
ویژگی صوتی پیشرفته ChatGPT نخستین بار در ماه مه ۲۰۲۴ بهصورت آزمایشی عرضه شد و از اکتبر همان سال، دسترسی آن به کاربران اتحادیه اروپا گسترش یافت.
گفته میشود هدف اصلی OpenAI از توسعه این ویژگی، فراهم کردن تجربهای روان، انسانی و زنده برای مکالمه میان انسان و ماشین بوده است؛ مکالمهای که در آن کاربر بتواند مانند یک گفتوگوی تلفنی، وسط صحبتهای دستیار هوشمند را قطع کند، احساسات خود را منتقل سازد و بدل به پاسخهای انسانی بشنود.
از دیگر امکانات این نسخه، توانایی ChatGPT در تفسیر بصری است. اگر کاربر دوربین دستگاه را فعال کند، این هوش مصنوعی میتواند بهصورت زنده اشیای موجود در تصویر یا محیط اطراف را شناسایی و درباره آنها اظهار نظر نماید؛ قابلیتی که کاربردهای متعدد از آموزش تا راهنمایی مسافران را شامل میشود.
آیندهای نزدیک با مترجمان هوشمند و همراهان صوتی
به نظر میرسد با پیشرفت این قابلیتها، فاصله بین انسان و هوش مصنوعی به سرعت در حال کاهش است. اگر روزگاری ترجمه همزمان یا صدای طبیعی تنها در فیلمهای علمی تخیلی قابل تصور بود، اکنون این امکانات در دسترس هر کاربری با یک گوشی هوشمند قرار دارند.
با این حال، کارشناسان هوش مصنوعی هشدار میدهند که نباید فراموش شود این ابزارها هنوز از درک واقعی زبان و احساسات انسانی بیبهرهاند و عمدتاً بر اساس الگوهای آماری کار میکنند. بنابراین، بهرهبرداری مؤثر از این فناوریها نیازمند آگاهی و شناخت محدودیتهای آنها است.