Технология ASR необходима для распознавания устной речи клиентов, которые обращаются к виртуальному ассистенту с запросами. Чтобы оперативно обучить модель в условиях отсутствия исходных данных, разработчики использовали реальные диалоги на казахском языке, содержащие релевантную для заказчика лексику. Аналитики BSS тщательно транскрибировали 10 часов аудиоматериалов, перенеся корректно их в текстовый режим.
Параллельно из открытых источников были собраны готовые речевые корпуса длительностью 1500 часов. На основе этих данных была обучена первая базовая версия модели, качество распознавания устной речи которой составило 70%. Затем базовая модель ASR была дообучена транскрибированными аналитиками 10-часовыми аудиоматериалами. После второй итерации модель показала качество в 80% на целевых запросах клиентов. Сейчас разработчики BSS запускают новый цикл обучения ASR, чтобы улучшить показатель распознавание устной речи.
«Наша команда показала выдающийся результат, разработав модель ASR за 3 месяца без исходных данных и сразу с уровнем качества в 80%. Мы собрали тестовый набор фраз клиентов заказчика и протестировали эти материалы на решениях других вендоров. Наша модель оказалась лучшей для заказчика, обогнав всех по качеству распознавания», — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.
Он также отметил, что команда BSS осуществила переход модели ASR с архитектуры Conformer на ZIP-Former. «Это позволило ускорить ASR в 3 раза и повысить качество распознавания речи на 5%. Также благодаря переходу на более производительную архитектуру реакция бота сокращается на 200-500 мс, что повышает естественность диалога с клиентами», — добавил Александр Крушинский.