Нейросети MTS AI научились синтезировать эмоции для голосовых ботов

29.08.2024 |

MTS AI внедрила в сервис Audiogram возможность выбора эмоций при синтезе речи. Сейчас нейросети могут воспроизвести пять ключевых эмоций, наиболее необходимых в колл-центрах: спокойствие, радость, злость, грусть и удивление. Это повысит лояльность клиентов и их удовлетворенность при диалоге с чат-ботами, а также сократит количество тех, кто не желает разговаривать с роботами и просит перевести звонок на оператора.

Использование эмоций в синтезированной речи поможет сделать диалог с виртуальным ассистентом более естественным и логичным. Например, когда собеседник жалуется на качество услуг, голосовой бот может ответить с грустью и удивлением, а при информировании клиентов о победе в розыгрыше он может использовать радостные эмоции. Также технология синтеза эмоционального голоса будет востребована для создания виртуальных ассистентов и персонажей видеоигр.

Чтобы реализовать новую функцию, четыре диктора, голоса которых используются в Audiogram, дополнительно записали по два часа текста с разными эмоциями. На этих датасетах команда MTS AI дообучила нейросеть, на которой работает сервис Audiogram. В будущем компания сможет расширить количество доступных эмоций для различных бизнес-заказчиков.

«Эмоциональная синтезированная речь будет востребована в колл-центрах банков, ритейлеров, телеком-операторов и других крупных компаний, которые активно используют голосовых ботов для общения с потребителями. Мы видим на рынке значительный запрос на эмпатичную коммуникацию с клиентами – многие из них готовы общаться с чат-ботом, если его речь будет близка к человеческой не только по смыслу, но и интонационно», — сказал менеджер продукта Audiogram Иван Дулов.

При синтезе речи можно не только выбрать эмоцию, но и настроить правила произношения слов, управлять скоростью и высотой тона голоса, а также добавлять паузы. Для этого достаточно разметить исходный текст для воспроизведения с помощью SSML-тегов. Также можно применить конкретный голос и эмоцию без разметки сразу ко всему тексту.

Платформа для распознавания и синтеза речи Audiogram может использоваться для создания уникального голоса своего бренда. Также сервис можно использовать в образовательных процессах – например, для подготовки аудиолекций, для озвучивания статей и для создания материалов для людей с ограниченными возможностями, в том числе слабовидящих.

Протестировать эмоциональный синтез речи можно на сайте MTS AI в разделе Audiogram. Функция доступна для текстов на русском языке: https://mts.ai/ru/product/audiogram/#demo