Агентство BrandEssence оценивает мировой рынок разговорного ИИ в 8,2 млрд долларов по итогам 2023 года и прогнозирует его рост до 32,5 млрд долларов к 2028 году. «Рынок синтеза сложно отделить от рынка распознавания речи. Общий объем российского рынка голосовых помощников, аналитики и распознавания речи, чат-ботов – порядка четырех миллиардов рублей. По нашим оценкам, из этого объема на рынок синтеза речи приходится около одного миллиарда рублей», – подсчитали эксперты MTS AI.
В недавнем исследовании «Системы синтеза речи для контакт-центров» мы сравнили семь доступных на российском рынке и наиболее популярных бизнес-решений для генерации речи. В ходе экспериментов с привлечением широкой аудитории выяснилось, что абсолютного лидера среди этого перечня продуктов нет, а качество их работы обусловлено как применяемыми в них технологиями, так и их предназначением.
В целом очевидно, что более современные модели генерируют более качественный звук. «Предыдущая модель Audiogram использует технологии 2019 года, а новая – уже наиболее современные. Сравнивая их, хорошо видно, что за последние 4-5 лет технологии достаточно сильно ушли вперед, и те компании, которые давно не обновлялись и продолжают предоставлять устаревшие решения, заметно проигрывают. Такой помощник ощутимо проигрывает в качестве синтеза, речь воспринимается более роботизированной. В то же время среди моделей современного, высокого уровня пользователь может не заметить разницы в качестве, и на выбор уже начнут влиять дополнительные факторы – такие, как цена, техподдержка, юрисдикция вендора», – замечает старший менеджер по продукту Audiogram MTS AI Иван Дулов.
Иван Дулов, старший менеджер по продукту Audiogram MTS AI.
Фото: MTS AI
Первый совет – сформулировать требования к стилю звучания: требуется ли более официальный или более разговорный стиль речи, необходимо ли явное указание эмоции для каждой фразы.
Второй совет – проверить, как платформа справляется со специфическими форматами либо терминами в тесте: имена собственные, технические термины, сокращения и аббревиатуры, специальные символы (например, знак процента), сложные ударения, географические названия.
Третий совет – пробовать больше разных вариантов. Например у одного и того же вендора мужской и женский голоса могут звучать по-разному. Один и тот же сервис предоставляет несколько вариантов звучащих с разными интонациями голосов, а также более специфические категории – голоса ребенка, пожилого человека, робота и т. д.
Четвертый совет – обратить внимание на производительность решения. Например, если требуется озвучивать одни и те же фразы, некоторые сервисы могут предоставлять кэширование. Если синтезируемый голос передается через телефонный канал, можно использовать специальные модели, генерирующие звук в 8 кГц, что существенно быстрее.
Создав перечень требований к системе генерации речи, можно выбрать несколько доступных сервисов и протестировать их на внутренней или внешней фокус-группе, замерив ряд метрик.
Mean opinion score (MOS) – усредненная экспертная оценка синтезированной речи, получаемая на основании оценок большой группы респондентов. Независимо друг от друга каждый из них прослушивает предоставленные фрагменты озвученного нейросетью текста и выставляет им баллы по шкале от 1 до 5 по различным критериям. Например, в исследовании ICT-Online.ru такими критериями стали общее впечатление, естественность звучания, темп речи, соответствие интонации тексту, темп, общая зашумленность, наличие артефактов (дрожания голоса растягивания звука и т. д.), необоснованные скачки интонации, высоты голоса и скорости чтения, неправильное произношение отдельных слов. Субъективность такого метода оценки нивелируется большим количеством респондентов: в нашем случае их было 500 человек.
Метрика MOS: основные сведения. Иллюстрация: MTS AI
«Важно отметить, что метрику MOS, сформированную для того или иного голоса, нельзя воспринимать как абсолютную. Нужно знать, на каких конкретных данных основаны те или иные оценки, какие вопросы задавались, на каком объеме аудитории проводился тест – и представлять себе, как это коррелирует с условиями работы модели в вашей собственной компании при решении ваших задач», – поясняет Иван Дулов.
Side-by-side («один к одному») – способ сопоставления пары решений генерации речи путем сравнения параметров каждой из них. Если в случае MOS респонденты оценивают каждый фрагмент по всем параметрам отдельно от других, то в случае Side-by-side они прослушивают две представленных аудиозаписи сразу, сравнивая их по аналогичному списку параметров. Результаты отображаются на шкале, где на отрезке от -3 до +3 участники опроса отмечают, насколько одна запись лучше другой по тому или иному показателю. Соответственно, если записи равны по качеству, отметка будет сделана нейтральная – 0.
Метрика Side-by-side: основные сведения. Иллюстрация: MTS AI
По мнению экспертов, технологии синтеза речи за последние пару лет сильно продвинулись вперед, и независимые респонденты всё чаще отмечают сходство синтезированного голоса и живой речи. Однако в целом о сервисе, который достиг бы «человеческого» уровня, пока рано.
«Мы делали подобную оценку, сравнивая по методу Side-by-side фразы, озвученные живым диктором, и озвученные нашим инструментом синтеза Audiogram. Наши лучшие голоса проигрывают человеческим голосам с величиной примерно -0,7, то есть достаточно заметно. Однако старые модели проигрывали с величиной -2. Сейчас при «слепом прослушивании» уже существует достаточно много фраз, которые пользователь не может определить, как синтезированные. Но в большинстве случаев, конечно, предпочтение по-прежнему отдается естественной речи. Преодоление этих -0,7 – и есть наш горизонт развития», – утверждает Иван Дулов.
Эксперты считают, что российский рынок голосовых технологий достаточно насыщен и даже перенасыщен. Десятки вендоров предлагают собственные модели или создают маркетплейсы моделей. Цены на подобные решения становятся более доступными. Вместе с тем заказчик тоже становится более опытным и требовательным. Поэтому качество продукта выходит на первый план. Сравнительные тестирования по изложенным выше методам позволяют подбирать наилучшие решения с учетом всех потребностей и специфики каждого заказчика.
Развитие технологий синтеза идет в сторону распространения полностью синтетических голосов – когда для создания модели компании не нужно записывать голос диктора. В ближайшем будущем синтетический голос будет звучать абсолютно так же, как человеческий, имитируя голос спикера по тональности и другим параметрам. Также можно будет сделать голос целиком искусственным, который будет звучать как человек, не существующий в реальной жизни. Такие технологии сделают инструменты генерации уникальных голосов значительно дешевле, а сами голоса – разнообразнее. Кроме того, будут решены многие юридические нюансы, связанные с использованием голосов.