OpenAI сообщила о выпуске обновления для голосового ассистента ChatGPT и запуске новых аудиомоделей, которые делают работу с голосом более удобной, точной и настраиваемой. Все новинки уже доступны через API.
Система умеет распознавать речь в реальном времени (speech-to-text) — удобно для голосового ввода, звонков, диктовки и автоматической транскрипции; озвучивать текст с эмоциями и характером (text-to-speech) — подстраивая стиль речи, акцент и тембр под нужды бизнеса.
Что нового для пользователей:
ChatGPT больше не перебивает, если вы делаете паузу —диалог звучит естественнее.
Голос ассистента стал более живым и выразительным.
Появилась возможность задавать стиль речи текстом — например, «говори как вежливый оператор» или «как рассказчик сказок».
Что даёт бизнесу и разработчикам:
Открывает широкие возможности для голосовых интерфейсов: от колл-центров до образовательных и e-commerce приложений.
Распознавание стало точнее — особенно в шумной обстановке, при акцентах и быстрой речи.
Стоимость использования через API:
gpt-4o-transcribe (распознавание речи): 0,006 долларов за минуту;
gpt-4o-mini-transcribe: 0,003 долларов за минуту;
gpt-4o-mini-tts (озвучка текста): 0,015 долл. за минуту аудио + 0,0006 долларов за текст.
Инцидент с голосом Скарлетт Йоханссон
Ранее OpenAI пришлось удалить один из голосов, который пользователи сочли похожим на голос актрисы Скарлетт Йоханссон. Компания это отрицает, но голос убрали. Сейчас всё настраивается пользователем вручную — имитация кого-то конкретного исключена.