Российская интернет-компания «Яндекс» разработала собственную технологию распознавания речи и даст сторонним разработчикам возможность внедрять основанные на ней голосовые интерфейсы в мобильные приложения при помощи библиотеки инструментов Yandex SpeechKit, рассказал Digit.ru на конференции YaC-2013 руководитель проекта SpeechKit Денис Филиппов.
«Мы в „Яндексе“ сделали технологию распознавания речи на русском языке. По нашим внутренним тестам качество распознавания ею русского языка лучше, чем у конкурентов. И сегодня мы хотим анонсировать Yandex SpeechKit — мультиплатформенную библиотеку инструментов, реализующих распознавание речи», — говорит Филиппов. По его словам, SpeechKit предназначен для разработчиков мобильных приложений, которые с ее помощью могут реализовывать в программах качественные голосовые интерфейсы.
«Яндекс» бесплатно предоставит сторонним разработчикам ту же библиотеку инструментов для распознавания речи, что использует в своих приложениях. Однако бесплатное использование ограничено лимитом в 10 тысяч запросов в сутки для одного приложения. При росте популярности и, как следствие, превышении лимита разработчик может индивидуально договориться с «Яндексом» об использовании API, но, возможно, уже за плату.
«Голосовые интерфейсы только начинают развиваться и представлены, в основном, в приложениях крупных компаний, а у мобильных разработчиков часто не хватает инструментов и опыта. Мы даем им бесплатный инструмент для экспериментов, а дальше условия будем обсуждать», — отмечает Филиппов. Средняя скорость ответа технологии «Яндекса» на голосовой запрос составляет 1 секунду, добавил он.
По словам Филиппова, при разработке технологии распознавания речи нужно развивать акустическую и языковую модели. Для первой нужно иметь много «размеченных» данных — был ли в речи акцент, кто говорил, был ли фоновый шум. «Яндекс» использовал в разработке 300 часов «вручную» размеченной непрерывной речи — это минимальный уровень, с которым можно рассчитывать на качество», — сказал Филиппов. Языковая модель «Яндекса» обучалась на сотнях миллионов поисковых запросов и в ней сейчас около 3,5 миллиарда слов.
Сторонним разработчикам «Яндекс» предоставит две языковых модели — общую (для распознавания команд, имен, объектов) и специализированную для геозапросов (адресов, названий местного бизнеса). Библиотека Yandex SpeechKit сегодня станет доступна всем разработчикам приложений для Android и iOS. Пока технология ориентирована на Россию, однако планируется добавлять и другие языки.
Алина Гайнуллина