4 июня в США подвели итоги соревнования по распознаванию действий на видео с применением искусственного интеллекта (название конкурса — ActEV-PC — Activities in Extended Videos Prize Challenge). Он проводился Национальным институтом стандартов и технологий — агентством при министерстве торговли США, одна из задач которого выявлять самые прогрессивные технологии в мире. Конкурс известен как в научном, так и в профсообществе компаний, развивающих искусственный интеллект.
Алгоритм российской компании NtechLab занял второе место, обойдя по эффективности 37 нейросетей мировых лидеров в области искусственного интеллекта. Позади, например, осталось JD.AI — спецподразделение китайского интернет-гиганта JD.com, вкладывающее в развитие новых технологий сотни миллионов долларов. Они заняли третье место. Также разработчикам из России удалось обойти сборную знаменитого американского университета MIT, специализирующегося на технологиях машинного обучения.
В этом году нейросетевым алгоритмам нужно было за доли секунды определить, что происходит в кадре, и отправить оповещение о нужном событии.
— На вход нейросети подается необработанное видео, и в ее задачу входит обозначение того момента, когда интересующее действие началось и когда оно закончилось, — рассказал «Известиям» основатель компании NtechLab Артем Кухаренко. — Мы подобрали такую архитектуру сверточной нейросети, которая подходила бы для обучения на последовательности кадров. Теперь мы можем, немного изменив алгоритм, заточить его на поиск любого интересующего нас действия.
Сеть способна обучаться и на 20 фрагментах, но для максимальной точности распознавания всё же потребуется порядка тысячи примеров нужного видео.
Для того, чтобы начать обучение программы, фрагменты отбирают специалисты группы разметчиков. Дальше эти видео подаются на вход нейронной сети, задается нужная архитектура и правила обучения. После того, как нейросеть продемонстрирует хорошие показатели детектирования, она встраивается в продуктовое решение, к которому подключаются камеры. Как только алгоритм срабатывает, то есть программа «видит» нужное событие, она посылает сигнал чрез внешний интерфейс.
В рамках конкурса программа должна была детектировать 18 типов действий, вроде разговора по телефону, набора смс-сообщения, выхода из транспортного средства, перемещения тяжелого объекта. Однако список событий, которые можно распознавать, принципиально не ограничен.
— Видеоаналитика на основе распознавания действий будет полезна с точки зрения безопасности — камера оповестит правоохранителей о начинающихся конфликтных ситуациях, о людях, оставляющих предметы или курящих в общественных местах, — пояснил «Известиям» генеральный директор NtechLab Александр Минин. — Новое решение позволит использовать любые камеры, даже самого низкого разрешения, и распознать действия тех, чьи лица не видны.
Не менее важное применение решение найдет в медучреждениях для контроля за соблюдением правил ухода за пациентами. Кроме того, его можно использовать в качестве составной части комплекса «умного города».
Применение подобных технологий дает значительный эффект даже в рамках относительно небольших пилотных проектов. Это было продемонстрировано во время чемпионата мира по футболу – 2018, когда благодаря распознаванию лиц было задержано несколько преступников, отметил директор по особым поручениям Госкорпорации «Ростех» Василий Бровко.
— Если говорить о корпорациях, таких как «Ростех», то на предприятиях распознавание действий на видео может использоваться, например, в сфере охраны труда, — добавил Василий Бровко. — Технология может применяться на опасных производствах, где требуется усиленное наблюдение. В данном случае речь идет не об усилении контроля как такового, а о предупреждениях, которые система могла бы выдавать, чтобы избежать критических ситуаций.
NtechLab уже ведет переговоры с промышленными и энергетическими предприятиями, а также с нефтегазовыми компаниями.
Анна Урманцева