– Александр, по вашим наблюдениям, в каких случаях и на каких участках работы с документами наиболее часто применяется интеллектуальная обработка? А когда она является излишней?
– Сегодня задачи интеллектуальной обработки шире, чем раньше. Еще несколько лет назад технологии OCR по-настоящему эффективно использовались только для распознавания формализованных документов, например, анкет, с целью извлечения полей и занесения их в базу данных. С течением времени появились возможности работать с неформализованными документами. Но такие решения строились на использовании шаблонов распознавания – жестких или гибких, которые были основаны на детерминированных алгоритмах, то есть жестко заданных функциях. Такой подход - это одна из ступеней эволюции процессов автоматизированной обработки документов. Повторить задачи, которые решаются на данный момент с помощью ИИ, он не может.
В сложных условиях роста видов и объемов данных нужна произвольность в выборе последовательности действий, так как мы не знаем, какого рода информация или тип документа может поступить на обработку. Система должна быть обучена ориентироваться в потоках документов и самостоятельно определять наиболее оптимальные алгоритмы обработки.
Руководитель направления ECM корпорации ЭЛАР Александр Кузнецов
В этой связи, если OCR, по сути, это извлечение данных по шаблону с ограниченным применением, то ИИ – конвейер, на каждом этапе которого производится полезная для деятельности учреждения операция. Сегодня ИИ помогает человеку распределять документы, изучать и анализировать данные, наполнять информационные системы полезными сведениями и, наконец, принимать решения.
Наиболее востребованные с точки зрения интеллектуальной обработки направления – обработка корреспонденции, управленческой, кадровой и финансовой документации, распознавание архивов технической документации, обработка клиентских досье и работа по нормализации реестров и баз данных, интеллектуальный анализ, сравнение и поиск документов, построение комплексных систем помощи принятия решений.
– Какие интересные технологии интеллектуальной обработки документов уже прочно вошли в работу, а какие только появились, но уже вызывают горячий интерес?
– Обработка – собирательное понятие. Сюда входит классификация документов, распознавание, аналитика, нормализация, извлечение данных и еще много чего. Так или иначе искусственный интеллект можно применять в различных бизнес-процессах. Если документы очень сложны в распознавании, ИИ сможет разложить их по классам, определив тип каждого документа, найти и собрать многостраничные документы. Пометить нужные для извлечения данных блоки. Затем какие-то документы распознать автоматически, а какие-то направить человеку для верификации или ручного ввода, при этом помогая оператору нормализовать данные или заполнить недостающие значения в базе с помощью справочников. Подобные решения уже активно используются.
Большой интерес вызывают платформенные решения, когда система может использоваться в рамках нескольких задач и иметь возможность обучения для расширения функциональности. Это позволяет отказаться от разрозненных разработок и строить продукт по единым корпоративным стандартам, при этом сохраняя этапность и последовательность, так как такие платформы обладают модульной структурой и могут внедряться планомерно с учетом ежегодных планов бюджетирования.
Еще один важный фактор – гибкость. Поэтому технологии в основе платформенного решения должны быть открыты и позволять проводить индивидуальную доработку под задачи определенного заказчика. Это особенно актуально для крупных корпоративных клиентов с нестандартными бизнес-процессами, которые могут быть уникальными и выполняться только в конкретной компании.
Таким образом набирают обороты No-Code / Low-Code конструкторы решений, позволяющие существенно экономить средства и время при настройке и адаптации платформы.
– Есть ли достойные импортозамещающие продукты на российском рынке?
– Да, есть. Отечественные решения ни в чем не уступают западным аналогам. А с учетом того, что они лучше адаптированы под российскую специфику, российские продукты становятся наиболее оптимальным вариантом не только с точки зрения импортозамещения, но и функциональности.
– С какими решениями работает ваша компания, какие из них вы считаете наиболее перспективными?
– У нас есть собственная интеллектуальная платформа обработки документов «ЭЛАР Документопоток». Она включена в Реестр отечественного ПО и поставляется как самостоятельное решение, а также в качестве модуля для отечественной ECM-платформы «ЭЛАР Контекст».
Наша платформа – это современное решение на основе нейросетей нового поколения. Внутри набор алгоритмов, построенных по модульному принципу. Система решает задачи классификации и распознавания документов любой сложности в рамках различных отраслей и процессов документооборота.
Уникальность разработки в том, что компания ЭЛАР более 30 лет занимается оцифровкой различного рода документов и цифровизацией архивов. Мы многолетние лидеры рынка, исполнители проектов «Память Народа», «Дорога Памяти», «Национальная электронная библиотека» и других. Стоит учесть, что мы работали со всеми возможными типами документов и видами данных: разные классы документов, разное физическое состояние и специфика бумаги, большое количество вариаций текста, таблиц и подчерков. Происходило многократное улучшение и постоянная тренировка искусственного интеллекта при выполнении реальных проектов на сверхбольших объемах данных. Такой полигон позволил подготовить одну из лучших в мире нейросетей, достигающую практически 100 % точности обработки.
«ЭЛАР Документопоток» позволяет в полностью автоматическом режиме конвейера классифицировать потоки входящих документов, распознавать и анализировать текст, извлекать различные категории данных, систематизировать, проверять и загружать полученную информацию в корпоративные информационные системы. При этом ИИ готов к обучению и постоянному повышению точности распознавания. Встроенный API позволяет масштабировать платформу, бесшовно встраивая систему в корпоративную среду управления. Платформа одинаково эффективно работает и с бумажными, и с электронными документами. Имеет инструменты создания новых правил обработки без программирования, что существенно повышает удобство работы и администрирования.
Стоит отметить, что ЭЛАР поставщик сертифицированных отечественных решений по организации хранения данных для Минобороны РФ, Администрации Президента РФ и других ведомств и учреждений, в связи с чем вопросам безопасности в платформе «ЭЛАР Документопоток» было уделено самое пристальное внимание. Система является кроссплатформенной и полностью совместима с Linux и отечественными аппаратными решениями. Готова обрабатывать документы конфиденциального характера, поддерживает сертифицированные средства защиты информации и позволяет в связке с ECM-платформой ЭЛАР Контекст организовать бесшовную обработку и защищенное хранение документов до уровня гостайны.
Подобные сценарии работы востребованы в госсекторе и ОПК. При этом платформа «ЭЛАР Документопоток» оптимальна для использования в финансовых и коммерческих структурах. Система работает в многопоточном режиме и имеет возможность быстрого добавления аппаратных мощностей для неограниченного наращивания производительности работы. Это очень актуально для обработки в режиме нон-стоп поступающих документов в крупных холдинговых структурах, ритейле и банках.
– Приведите примеры проектов на основе таких решений.
– Компания ЭЛАР реализовала большое количество проектов по автоматизации обработки и хранения документов. С каждым годом их количество растет. Можно отметить внедрение решений по обработке и загрузке судебных дел в централизованные электронные хранилища судов субъектов РФ, проект по переводу в цифровой вид кадровой картотеки Минобороны РФ, распознавание технической документации в Московском метрополитене, реализацию системы по обработке документов с точек POS-кредитования Сетелем Банка, обработку бухгалтерских документов РФФИ, комплексную систему управления клиентскими досье и финансовой документацией Газпромбанка, обработку клиентских досье Банка Возрождение, международный проект по организации хранения и обработки финансовых документов компании Цеппелин и многие другие.
За годы деятельности наработан большой опыт. Программные решения нашей разработки из Реестра российского ПО («ЭЛАР Документопоток», ЭЛАР Контекст, АИС ЭЛАР Архив), а также отечественная радиоэлектронная продукция собственного производства, включенная в Реестр РЭП Минпромторга в составе планетарных сканеров ЭларСкан и систем долговременного хранения данных ЭЛАР НСМ, обеспечивают удовлетворение всех потребностей наших заказчиков, связанных с оцифровкой, обработкой, хранением и защитой информации и документов.
– Где еще в ближайшем будущем может начать применяться интеллектуальная обработка данных? Как это изменит процессы работы с данными?
– Сегодня бумажные документы еще важны как оригинальный источник исторической информации, и уже незаменимы электронные документы как инструмент повседневной деятельности. Поэтому искусственный интеллект будет совершенствоваться в нескольких направлениях.
Во-первых, в области обработки архивных документов. Это огромный пласт значимой и ценной информации, который еще в большом количестве представлен только на бумажном носителе. Технологии помогают снизить трудозатраты по оцифровке и анализу накопленных в бумаге данных, даже несмотря на низкую читаемость или рукописный текст.
С другой стороны, с каждым днем растут объемы цифровых данных. Если говорить о документообороте и учетной деятельности, то важным аспектом является возможность проверки, связывания и нормализации данных в рамках сквозных процессов. Например, в крупном холдинге есть несколько версий учетных систем. В каждой из них собственная база данных с одинаковыми по смыслу значениями, но разным написанием. Появляется дублирование и ошибки в привязке данных к транзакциям и документам. Нормализация таких справочников и создание единой эталонной базы - это огромный труд, требующий участия человека, чтобы провести анализ, сверку, исправление данных и удаление дублей. Поэтому снижение нагрузки на человека в процессе аналитики разнородной информации – важный вопрос, активно прорабатывающийся в ИТ-проектах.
И, наконец, работа с большими данными. Она призвана автоматизировать ключевые процессы предприятий и учреждений. Сюда можно включить совершенствование прогнозирования и аналитики, например, в финансовом секторе, процессов управления производством, обработку видео- и фотоматериалов.
– Большое спасибо за беседу!