Роскомнадзор выделяет средства на разработку системы «Окулус», призванной обнаруживать запрещенный контент в сети. На реализацию данного проекта заложено 57,7 млн руб., в качестве разработчика выступит компания ООО «Эксикьюшн Эр Ди Си», о чем было сообщено на сайте госзакупок 15 августа. Сроки выполнения заказа, размещенного ФГУП ГРЧЦ, структурой Роскомнадзора, установлены до 12 декабря.
Согласно документации, приложенной к госзакупкам, система «Окулус» должна в режиме онлайн проводить анализ рисунков и фотографий, видео, общения в чатах, а также ленты каналов в мессенджерах, URL-адреса и прочие данные с целью выявления запрещенной информации.
Поиск нежелательной информации должен осуществляться, помимо текстового вида, также и в «сценах, сочетаниях предметов, композициях образов, лицах, статике и динамике движений».
От исполнителя требуется, исходя из условий тендера, разработать систему, а кроме того, предоставить ГРЧЦ дата-сеты, с помощью которых будут выявляться запрещенные данные.
Разработчик, выигравший тендер, ООО «Эксикьюшн Эр Ди СИ» (Execution RDS), согласно сведениям «СПАРК-Интерфакс» существует с 2014 года, уставной капитал составлял на момент регистрации 10 тыс. руб. В 2021 году выручка компании составила 229 млн руб., при этом чистая прибыль из них – 23 млн руб. Исходя их сведений «СПАРК-Интерфакс», до этого организация не выбиралась исполнителем по государственным контрактам, реализуя проекты по интеграции в отечественных компаниях решений на базе немецкого софта SAP, исходя из сведений, размещенных на её сайте.
Согласно требованиям, исполнитель обязан осуществить поставку в ГРЧЦ размеченных наборов данных для осуществления обучения модели распознавания лиц «в объеме не менее 100», в целях реализации внутри системы каталогов для определения символики, сцен, действий и персоналий. Для системы обозначена мощность обработки 200 тыс. изображений в 24 часа, то есть около 2 кадров в секунду.
При этом для работы такой системы потребуется минимум 48 серверов с графическими ускорителями, а также наличие нейронных сетей, задействующих глубокое машинное обучение, благодаря которому и будет отфильтровываться нежелательный контент.
В перечень контента, запрещенного к использованию, войдут материалы, содержащие признаки терроризма и экстремизма, призывы к массовым незаконным мероприятия, выражение явного неуважения к обществу, государству и официальным символам РФ, информация о способах совершения суицида, методики изготовления наркотических препаратов, а также пропаганда нетрадиционных сексуальных отношений и демонстрация употребления табачной продукции.
Эксперты уточняют, что создание такой системы потребует значительно большего объема финансирования, а кроме того, осуществление подобного проекта практически невозможно с учетом заявленных сроков. Сочетание же этих двух факторов ставят реализацию проекта под сомнение и наводят на мысли о судьбе проекта. Более того, в принципе реализация подобного проекта, даже при наличии достаточного финансирования и приемлемых сроков требует колоссальных объемов обучения – по словам экспертов, при сегодняшнем уровне развития ИТ аналогичные задачи смогут выполняться с большим количеством ошибок: качество будет составлять порядка 90%, а значит, на ошибки придется около 10%. Более того, даже сбор данных для репрезентативной выборки в целях создания обучающих дата-сетов предполагает большее количество времени, чем заложено на всю разработку системы. Аналогичные модели искусственного интеллекта, способные классифицировать человеческое поведение, опираясь на данные видеоряда, требуют около 1 млн видеороликов для предварительного обучения.