Оптимизация процесса обработки большого объема документов с помощью потокового сканирования

Оптимизация процесса обработки большого объема документов с помощью потокового сканирования
Фото freepik.com
Как бы стремительно ни развивались технологии, до сих пор существуют предприятия, использующие для ведения документооборота бумажные носители. С учетом того, что у большинства крупных компаний сложная внутренняя структура, есть представительства в разных городах, становится понятным, какие объемы бумажных хранилищ документации приходится вручную обрабатывать их сотрудникам. Ситуацию также может усугубить, к примеру, внеплановая реструктуризация, при которой архив может быть утерян или обнаружен в непривычном месте. Выход из этой ситуации предлагает Ольга Гриценко, эксперт по OCR-решениям, RAMAX Group.

Чем больше на предприятии неопределенностей и сложностей в работе с документами, тем выше расходы на поддержание архивов, больше ошибок, вызванных человеческим фактором, что в результате приводит к срыву сроков предоставления документов, предусмотренных законодательством РФ.

Рано или поздно любая организация, чтобы избежать негативных последствий (штрафы, потеря документов и т.д.), приходит к идее структуризации как исторических архивов бумажных и электронных документов, так и документации кратковременного хранения.

 

Ольга Гриценко, эксперт по OCR-решениям, RAMAX Group

Ольга Гриценко, эксперт по OCR-решениям, RAMAX Group
Фото: RAMAX Group

 

В данном вопросе помогают передовые технологии, предоставляющие ряд инструментов для автоматизации загрузки различных документов, сохранения их скан-образов с необходимым набором метаданных в электронных архивах. Основная цель таких инструментов - сканирование документов, распознавание ключевых полей и передача распознанных данных, атрибутов документов во внутренние системы предприятия. Решения для распознавания текста (OCR) можно использовать отдельно, а также работать с ними внутри BPM-систем и ЭДО.

Как выстроить бизнес-процессы с использованием инструментов потокового сканирования

Команда RAMAX Group обладает обширной экспертизой в области внедрения как зарубежных решений OCR, так и отечественных продуктов потокового сканирования для enterprise-предприятий нефтехимической и авиационной отраслей. С помощью инструментов OCR компании могут работать с документами с фиксированной структурой (анкеты, налоговые декларации), со слабоструктурированными (счета на оплату, накладные) и неструктурированными (письма, пояснительные записки) документами.

При работе с продуктами OСR эксперты RAMAX Group придерживаются выработанного подхода, проверенного опытным путем, который позволяет выстроить четкий процесс обработки документов с учетом специфики деятельности компании.

Следует отметить, что при работе с решениями потокового сканирования в первую очередь важно классифицировать документы. Понимание типов и вариативности сканируемых документов на начальных этапах проекта позволяет выявить закономерности, сходства и различия форм документов, правильно определить ключевые слова, характерные для каждой группы документов, что значительно повышает качество наложения разрабатываемых шаблонов распознавания. Это, в свою очередь, в разы увеличивает скорость обработки, что может быть особенно критично для больших объемов документов.

При разработке шаблонов распознавания, с одной стороны, следует добиваться максимальной точности и детализации, чтобы повысить его качество. С другой - подобная детализация не должна замедлять процесс обработки документов, имеющих свои регламенты по срокам ввода в систему. Для ускорения распознавания командой RAMAX Group были разработаны собственные скрипты наложения, которые по внешним признакам загруженных пакетов подсказывают системе, какие шаблоны и в каком порядке следует применять в том или ином случае.

Особое внимание стоит уделить принципам объединения документов в комплекты (например, наборы документов, относящихся к единой финансовой транзакции от одного поставщика в рамках единого договора). Для этого часто используются штрихкоды на первом документе каждого комплекта, атрибуты, однозначно характеризующие документы, принадлежащие одному комплекту, или заранее заданная последовательность документов в комплекте.

Часто инструменты потокового сканирования предлагают возможность задать правила, с помощью которых система сможет правильно выполнить сборку комплектов.

После того, как шаблоны разработаны и заданы правила сборки, можно добавить ряд дополнительных правил и проверок, повышающих качество распознавания. Например, можно задать форматы полей, списки допустимых значений, указывать, в каком поле могут содержаться только цифровые значения, а в каком – текстовые, выполнять проверки сумм как в рамках одного документа, так и между разными документами в одном комплекте. Все эти дополнительные правила и проверки не только обращают внимание оператора системы на возможные ошибки, но и являются своего рода подсказками для самой системы распознавания.

Кроме того, необходимо настроить потоки операций, чтобы определить последовательность выполняемых системой шагов, точки интеграции с внешними платформами, маршрутизацию заданий обработки документов между операторами системы, а также степень автоматизации этапов обработки. У некоторых компаний возникает вопрос: в каком случае следует останавливать процесс обработки документа, чтобы дать возможность оператору системы проверить корректность распознавания и внести соответствующие изменения, а когда лучше сэкономить время человека и автоматически передать распознанные данные во внешнюю систему?

В таких случаях следует найти определенный баланс между скоростью и качеством обработки. Опираясь на проектный опыт, специалисты RAMAX Group совместно с клиентом определяют список обязательных полей и критичных ошибок, при обнаружении которых система передает документы на ручную корректировку оператором. В случае, если критичных ошибок обнаружено не было, процесс его обработки - полностью автоматический.

Не стоит забывать, что каждое задание на распознавание - целостный неделимый процесс, который может одновременно обрабатываться только одним оператором системы. Поэтому в ней должен быть предусмотрен механизм получения задания и его освобождения.

Также важно продумать систему ролей и полномочий, чтобы разграничить доступ операторов не только к документам на определенном этапе обработки, но и к разным их типам. Особое внимание стоит уделить документам, содержащим конфиденциальную информацию. Современные отечественные системы потокового сканирования и распознавания предоставляют возможность маскировать чувствительную информацию в документах на тех этапах, когда с ними работают операторы без прав доступа к таким данным.

Немаловажный этап при проектировании системы - экспорт распознанных данных во внешнюю систему предприятия и сохранение скан-образов в электронном архиве. Не стоит также забывать, что часто при сканировании создаются файлы изображений, а на выходе требуется получить файл, например, в формате PDF или PDF/A. При этом в процессе распознавания скан-образ проходит через ряд системных преобразований, что может отрицательно сказаться на его качестве. Поэтому нужно тщательно продумать формат экспортируемых файлов, необходимость сохранения оригинальных изображений, степень и алгоритм сжатия файлов, ориентируясь на баланс между сохранением качества документа и пропускной способностью каналов передачи данных.

В итоге правильно подобранное и настроенное решение потокового сканирования в разы увеличивает скорость работы с документами за счет автоматизации большей части операций, исключает «бумажную рутину», а также повышает эффективность взаимодействия как между внутренними подразделениями, так и с внешними контрагентами.

Автор: Ольга Гриценко, эксперт по OCR-решениям, RAMAX Group

Тематики: Интеграция

Ключевые слова: электронный документооборот, ЭДО, RAMAX