Синтез речи является одним из инструментов из категории речевых технологий. Помимо него, к этому сегменту программных продуктов относятся, например, инструменты для распознавания речи, речевой аналитики, голосовой биометрии.
Значительный рост рынка речевых технологий в России и мире, который наблюдается в последние годы обусловлен двумя большими группами факторов. Первая связана с развитием и широким распространением технологий искусственного интеллекта, без которых распознавание и синтез речи невозможен. Вторая – с актуальными потребностями заказчиков различных сфер деятельности в решениях подобного рода для оптимизации персонала, сокращения издержек, массового информирования клиентов, устранения очередей на телефонной линии и других задач. К главным потребителям речевых технологий традиционно относят контакт-центры телеком-операторов, финансовых организаций, онлайн-магазинов, ИТ-компаний, медицинских центров, любых других поставщиков услуг.
В цифрах – исследовательское агентство BrandEssence оценивало мировой рынок разговорного ИИ в 8,2 млрд долларов по итогам 2023 года и прогнозировало его рост до 32,5 млрд долларов к 2028 году. В России компания Just AI прогнозирует рост рынка с 76 млн долларов в 2020 году до 561 млн долларов к 2025 году.
Отдельно стоит отметить, что инструменты синтеза речи попадают в обзоры и рейтинги значительно реже, чем инструменты распознавания речи. Это становится одной из причин актуальности данного исследования. Другая смежная причина – нехватка опыта и компетенций у заказчиков для объективного сравнения доступных инструментов синтеза речи. Часто решение об использовании того или иного продукта принимается на интуитивном уровне или на основе косвенных факторов – известности разработчика на рынке, рекламы продукта и т. д. Мы предлагаем методологию, которая позволит сделать этот выбор более обоснованным.
Для исследования мы взяли семь бизнес-решений от значимых игроков рынка, которые, по отзывам потребителей и презентациям вендоров, демонстрируют достаточно хорошее качество синтеза звука:
В качестве тестируемых образцов были выбраны готовые голоса, которые поставщики услуг по синтезу речи предлагают клиентам – один мужской и один женский:
Для точного позиционирования эксперимента, а также для того, чтобы все участники находились в равных условиях, были сформулированы определенные правила:
Качество синтеза речи измерялось двумя метриками:
– MOS (Mean Opinion Score): участники фокус-группы, независимо друг от друга, прослушивают аудио-семплы семи вендоров. В специальной анкете они оценивают каждый семпл по девяти критериям. Диапазон оценок – от 1 (самая низкая оценка, неправдоподобное звучание) до 5 (самая высокая оценка, очень близко к звучанию человеческой речи). Принадлежность семпла к тому или иному вендору не раскрывается.
– Side-by-side: участники фокус-группы, независимо друг от друга, сравнивают семплы двух вендорских решений в формате «один относительно другого». По такому принципу в исследовании отдельно сравниваются пять различных фраз. Качество звучания каждой фразы оценивается по шкале от -3 до 3, где оценка ноль или около нуля означает примерно одинаковое звучание, а чем больше значения ниже или выше нуля, тем больше преимущество семпла, расположенного, соответственно, слева или справа. При этом отклонение менее 1 пункта считается приемлемым, а отклонение более 1 пункта – значительным превосходством. Принадлежность семпла к тому или иному вендору не раскрывается.
Для участия в исследовании были привлечены пользователи сервиса Толока в количестве 500 человек. Такой объем фокус-группы позволяет получить достаточное представление о разбросе оценок, исключить аномальные оценки (например, вызванные техническими проблемами при прослушивании) и вычислить средние значения. По нашему мнению, дальнейшее расширение фокус-группы кардинально не повлияло бы на объективность эксперимента.
По результатам исследования по метрике MOS была рассчитана средняя оценка синтезированных голосов по всем критериям. Лучшее качество мужского голоса продемонстрировали решения SaluteSpeech и Audiogram в режиме «high quality», женского – решения Yandex SpeechKit и ЦРТ.
Из интересных наблюдений – женские голоса фокус-группа оценила намного более однородно: разброс средних оценок составил всего 0,3 балла, тогда как у мужских голосов разброс – 0,63 балла. Таким образом, часть мужских голосов получила наиболее высокую среднюю оценку (4 и 3,99 баллов), но другая часть – наиболее низкую (3,53 и 3,57 баллов).
Для сравнения – «живая» человеческая речь в подобных экспериментах обычно получает среднюю оценку 4,5 баллов.
MOS: средняя оценка по всем критериям. Источник – аналитика ICT-Online.ru
Ниже приведены оценки респондентов мужских и женских голосов отдельно по каждому критерию. Здесь стоит отметить, что фокус-группа ставила наиболее низкие оценки по критерию «естественность звучания речи». Это главная точка роста для вендоров решений по синтезу речи. Меньше всего баллов респонденты снижали за неправильное произношение – то есть виртуальные ассистенты (за некоторым исключением) достаточно хорошо «научились» базовому умению не коверкать слова, ставить правильное ударение и т. д.
MOS: мужские голоса. Источник – аналитика ICT-Online.ru
MOS: женские голоса. Источник – аналитика ICT-Online.ru
По методике Side-by-side голоса сравниваются «каждый с каждым», то есть полный эксперимент должен включать в себя по 21 сравнению мужских и женских голосов. В рамках данного обзора мы для примера ограничимся демонстрацией пяти таких пар – сравнением синтеза речи Audiogram (high quality) с каждым из конкурентов (кроме Audiogram light).
Ниже приведены графики сравнений, где в правой части – Audiogram, а в левой – конкуренты. Столбик диаграммы отклоняется в сторону одного из участников в той степени, в какой фокус-группа отдала ему предпочтение.
Также обратим внимание на построение фраз: это в большинстве своем не клишированные предложения, а фразы, по структуре и приемам приближенные к живой разговорной речи. С одной стороны, это само по себе делает общение виртуального ассистента с абонентом более естественным. С другой стороны – такие фразы более сложны для правильного синтеза.
Сначала приведем средние оценки фокус-группы по всем фразам.
Side-by-side: мужские голоса. Источник – аналитика ICT-Online.ru
Side-by-side: женские голоса. Источник – аналитика ICT-Online.ru
Далее – средние оценки фокус-группы по каждой фразе из пяти. Стоит обратить внимание на неоднозначные оценки при сравнении отдельных фраз у двух инструментов. Например, при сравнении Audiogram и Aimyvoice на фразе «Говорят молчание знак согласия. Вы согласны, что это СПАМ звонок?» респонденты отдали безусловное предпочтение первому инструменту, а на фразе «Кажется вы Знакомый! Скажите, что вы хотели, я попрошу абонента вам перезвонить» – второму. Это хороший пример того, насколько сильно специфика набора фраз может влиять на выбор заказчиком той или иной модели.
Side-by-side: мужские голоса по фразам. Источник – аналитика ICT-Online.ru
Side-by-side: женские голоса по фразам. Источник – аналитика ICT-Online.ru
Исследование систем синтеза речи было проведено в рамках одного определенного домена: секретарей (виртуальных помощников) контакт-центров телеком-компаний.
На качество генерируемого голоса могут оказывать влияние такие факторы, как
В итоге три или четыре инструмента (в зависимости от конкретного этапа исследования) продемонстрировали более высокие показатели, чем остальные. Однако обращаем внимание, что это не универсальные показатели качества, а только фиксация оценок, полученных в определенных условиях.
Данное исследование может быть использовано в бизнес-среде как пример методологии для выбора оптимального решения по синтезу и распознаванию речи.
Изображение к лиду - freepik.com