Человек и компьютер: им есть что сказать друг другу. «Центр речевых технологий» представил интеллектуальные технологии распознавания и синтеза речи

Вчера, 5 августа 2010 года, крупнейший российский игрок в своей области «Центр речевых технологий» представил в штаб-квартире в Петербурге новейшие разработки и технологии распознавания и синтеза речи в режиме онлайн. Топ-менеджеры компании совместно с ведущими специалистами «ЦРТ» рассказали о формировании принципиально новых ниш на рынке речевых технологий в Интернете и дали свои прогнозы относительно возможностей их применения в мобильном Интернете.
Генеральный  директор компании «ЦРТ» Михаил Хитров, говоря об основных трендах развития отрасли, назвал голосовую биометрию и технологии синтеза и распознавания речи наиболее прорывными и коммерчески перспективными направлениями деятельности: «Сейчас наука и технологии доросли до того уровня, чтобы реализовывать такие проекты в промышленном масштабе. Не менее важно и то, что потребители стали психологически готовы пользоваться подобными услугами». 

Напомним, что «ЦРТ» – единственная в России компания полного производственного цикла, разработавшая собственные технологии синтеза и распознавания русской речи.  В последние годы данные системы стали доступны пользователям как  в виде комплексных решений по голосовому самообслуживанию в крупных коммерческих и государственных структурах, так и в виде отдельных сервисов, которые можно интегрировать в колл-центры или интернет-порталы (про разработки в области автоматизации колл-центров и синтезированной речи в системах голосового самообслуживания – см. материал раздела «Центр речевых технологий»).

Генеральный  директор компании «ЦРТ» Михаил Хитров
Генеральный директор компании «ЦРТ» Михаил Хитров

Рынок интернет-технологий во многом новый для компании сектор, однако в нем уже реализованы первые проекты. Руководитель отдела распознавания речи Кирилл Левин рассказал, что «на сегодняшний день основные усилия разработчиков сконцентрированы на развитии автоматических информационно-справочных систем, речевой аналитике и распознавании речевых команд при управлении электронными устройствами». Вчера компания продемонстрировала свои три главные разработки за последнее время. 

Во-первых, это технология навигации Speak-to-Click, обеспечивающая удобный серфинг по сайтам в Сети с помощью голоса. «Приложение анализирует страницу, выявляет все активные ссылки и подбирает нужную грамматику запроса. Пользователю остается лишь назвать интересующий его раздел, и переход осуществится автоматически. Сейчас технология успешно тестируется на ряде сайтов, и мы надеемся, что в ближайшее время она выйдет на массовый рынок», – заявил менеджер проекта Вадим Васильченко. 

Не менее интересным для конечного пользователя может оказаться второе ноу-хау компании – сервис распознавания речи в геоинформационных системах (ГИС), позволяющий прокладывать маршруты  в электронных картах при голосовом указании адреса объекта. «Приложение будет интегрировано в стандартный пакет интернет-карт, что позволит сделать его доступным всем без исключения пользователям, в том числе и тем, кто использует мобильные версии для телефонов и смартфонов. Технологию поиска ближайших объектов и прокладка маршрутов будет осуществляться разработчиками карт, мы же, в свою очередь, обеспечиваем технологию голосового распознавания и синтеза названий этих объектов. Таким образом, работая вместе, мы открываем перед пользователями такие уникальные возможности», – пояснили разработчики из «ЦРТ». 

Команда разработчиков и менеджеров продуктов «ЦРТ»
Команда разработчиков и менеджеров продуктов «ЦРТ»

По данным аналитиков, 11 % пользователей Рунета предпочитают прослушивать новости, нежели просматривать видео или читать текстовые файлы. При этом в сегментах деловой и развлекательной информации наблюдается существенное преобладание именно текстового формата. В связи с этим в «ЦРТ» был создан первый в Рунете сервис по озвучиванию текстового контента – VitalVoice web service, который автоматически преобразовывает текстовые файлы, доступные на сайте, в естественно звучащую русскую речь. Коммерческий запуск проекта состоится осенью 2010 года и позволит блоггерам и владельцам сайтов предоставлять пользователям аудиоверсии новостей. Стоимость использования сервиса, по словам менеджера проекта Михаила Ильюшина, будет варьироваться от 450 рублей для небольших корпоративных сайтов (50 обращений в месяц) до 40 тыс. рублей для социальных сетей и крупных порталов с ежемесячной озвучкой до 6 млн сообщений в месяц. 

«ЦРТ» стремится показать пользователям и разработчикам сайтов, что технологии синтеза и распознавания речи, поиска по ключевым словам в массивах данных готовы к  выходы на массовый рынок. Изначально эти технологии разрабатывались для военно-промышленного комплекса, потом их получил большой бизнес, а  теперь они выходят к конечному потребителю через Интернет. И если у пользователей появится интерес к речевой навигации по сайтам, прослушиванию информации с новостных порталов и голосовому управлению картами, то мы готовы сосредоточить все наши усилия в данном направлении», – подвел итог встречи один из топ-менеджеров компании Дмитрий Ивченко. 

Рубрики: Маркетинг, ПО

Ключевые слова: разработка программного обеспечения, разработки , разработка программ