Всё, что необходимо знать о современных системах OCR

Автор (физическое лицо, творческим трудом которого создано произведение) Кирилл (мужское имя древнегреческого происхождения) Чеханков

От выбора системы OCR напрямую зависят финансовые показатели бизнеса, так как верно настроенное решение позволяет снижать операционные издержки, фонд оплаты труда и быстрее получать точные эти для дальнейшей работы компании.

От архивов до общих центров обслуживания – везде, где компании имеют дело с большим объемом разрозненных документов, системы оптического распознавания символов (OCR) могут качественно изменить подход к обработке данных. На фоне выхода продуктов ABBYY из единого реестра российского ПО мы решили рассмотреть, какие альтернативы есть у тех, кто продолжает пользоваться технологиями OCR.

Технология оптического распознавания символов (Optical Character Recognition, OCR) позволяет извлекать данные из документов самых разных типов – от текстовых и PDF до фотоизображений. Получая их, мы можем структурировать данные, обеспечить быстрый поиск информации и передачу обработанных данных в бизнес-системы компании. При большом объеме входящей документации использование OCR актуально для кадровой службы, бухгалтерского или юридического отдела, архива. А также для общих центров обслуживания (ОЦО), которые все чаще создаются в крупных компаниях, работающих с массовым рынком.

Но OCR работает не только с бумажными версиями файлов: решения на базе этой технологии обрабатывают цифровые образы документов. В таком случае образ извлекается не в процессе сканирования, а передается из других систем, в том числе через системы электронного документооборота (ЭДО). Для ряда заказчиков этот сценарий актуален. Например, банки принимают кредитные анкеты из розничных сетей, а коллекторские агентства – договоры между банками и их должниками. Во всех подобных случаях OCR позволяет автоматизировать и повысить эффективность процесса извлечения данных.

Кроме того, растет интерес к технологии OCR в государственных организациях. Однако к решениям на ее основе, как и ко многим другим, здесь предъявляют особое требование: они должны обязательно входить в реестр российского ПО. К настоящему времени таких решений в нем немало и с каждым годом становится все больше.

От выбора системы OCR напрямую зависят финансовые показатели бизнеса, так как правильно настроенное решение позволяет снижать операционные издержки, фонд оплаты труда и быстрее получать точные данные для дальнейшей работы компании. Лишь на первый взгляд распознавание с точностью 75% незначительно отличается от 98%-ной, а на практике такая разница увеличивает количество обрабатываемых вручную документов с 2 до 25%. Таким образом, выбирая OCR-решение, очень важно не ошибиться.

Три составляющие OCR-решений

«Под капотом» OCR-решений находятся три ключевые составляющие: а) движок распознавания, б) инструменты настройки шаблонов, в) технологии машинного обучения, которые могут использоваться или нет в зависимости от решаемой задачи.

Для начала разберемся с движком – это основа технологии распознавания. Практически все крупные системы имеют собственные технологии распознавания. Так, Google, Amazon и Microsoft предлагают достаточно дешевое облачное полнотекстовое распознавание, однако на русском языке его качество оставляет желать лучшего. Yandex здесь выигрывает, но, в отличие от конкурентов, для него характерны ограничения размера изображений. Что касается промышленных движков, то мы рекомендуем enterprise-решения вроде ABBYY, Tesseract и Kofax.

Применение инструментов настройки шаблонов поверх движков распознавания – это уже уровень интеграции OCR с другими системами компании. Часто на данном этапе требуется написание программного кода для связки решений между собой. За счет программируемых шаблонов можно задать определенный функционал пред- и постобработки изображений, передачи данных из системы в систему. Проще говоря, могут быть созданы правила и сценарии обработки распознанных данных, которые соответствуют бизнес-процессам конкретной компании.

Типичный проект по внедрению решения OCR состоит из двух частей: выбора лицензионного софта (движка) и работы по созданию шаблонов. Обе части влияют на стоимость проекта – чем удобнее инструмент, тем ниже она будет. При этом реализация шаблонов и интеграции зависит от компании-исполнителя: кто-то использует только свой движок, а кто-то, как Konica Minolta, работает с любым софтом, подбирая решения под задачи заказчика.

Наконец, третий уровень OCR-решений – применение поверх движков и шаблонов технологий машинного обучения, машинного зрения и нейросетей. Об этом чуть ниже.

Какие движки OCR доступны российским заказчикам?

Среди наиболее популярных стоит отметить решение ABBYY — продукт на собственном движке, отличающийся «зрелыми» возможностями работы с кириллицей при доступной стоимости. Ключевой конкурент на мировом рынке, продукт от Kofax, несколько более дорогой и менее функциональный для отечественных пользователей из-за особенностей обработки языка. На российском рынке также встречаются решения на базе IBM DataCap, однако эта система сложнее в настройке и обладает меньшими возможностями, чем первые две, при этом ее цена в некоторых случаях выше.

Отдельно упомянем софт, подходящий компаниям, которым необходимо соблюдать требования законодательства об импортозамещении. Среди таких движков, например, российский SOICA, уже включенный в реестр отечественного ПО. А также платформу EasySeparate, способную использовать любой движок OCR, что позволяет достигать гибкости при внедрении и настройке. Кстати, сейчас идет процесс включения EasySeparate в реестр отечественного ПО.

Кроме того, существуют различные роботизированные решения класса RPA, которые претендуют на работу с распознаванием документов. Но стоит иметь в виду, что системы класса RPA не заточены под сложные случаи работы с извлечением данных, так как их роль в первую очередь состоит в автоматизации бизнес-процессов. Поэтому в проектах, где требуется автоматизировать задачи извлечения данных, RPA зачастую тесно интегрирован с OCR: ведь специализированные OCR-решения могут обеспечить точность распознавания до 99%, особенно при обработке сложных запросов, а в большинстве проектов эта точность служит критерием экономического обоснования и успешности проекта.

С чем интегрируют OCR?

Сама по себе технология OCR – только средство извлечения данных. Важно, для чего мы их получаем и каким образом будем обрабатывать, хранить и передавать дальше в пределах ИТ-инфраструктуры компании. Обычно заказчики хотят получить решения для сквозных процессов, и это правильно. Поэтому задачи проектов по извлечению данных тесно связаны с роботизацией процессов и теми же RPA: в таком случае OCR и RPA дополняют друг друга.

Сюда же относится взаимодействие OCR-решений с электронными архивами, где хранятся цифровые образы документов вместе с метаданными, которые были извлечены из них с помощью распознавания. Причем под классом электронных архивов подразумевается широкий спектр решений разного уровня сложности. Так, у Konica Minolta есть опыт реализации комплексных электронных архивов в качестве единого централизованного хранилища данных, которое автоматизирует процессы, маршрутизирует документы и связано с ЭДО, но компания работает и с более простыми цифровыми хранилищами в виде понятной структуры папок с упрощенным поиском данных.

На теме поиска нужно заострить внимание: в электронном архиве он существенно упрощается. Поскольку все документы получают текстовый слой, то электронный архив делает весь текст документа индексным. И если раньше вы могли искать только по атрибутам документов, например номеру или дате, то теперь – и по содержимому. Это может быть крайне актуально, когда компании необходимо быстро находить нужные файлы для контрагентов или той же ФНС, часто требующей предоставления информации в электронном виде. Сюда же относится налоговый мониторинг, который через витрины данных предполагает обмен информацией с налоговой службой.

Как развиваются OCR на основе нейросетей?

Наконец, третий уровень OCR-решений – наиболее интеллектуальный. С развитием нейронных сетей и фреймворков стало возможным обучать систему распознавать текст на определенных видах документов, и результат у таких специализированных решений будет выше, чем у универсальных. Например, решения от SmartEngines показывают высокое качество распознавания на паспортах, так как система была обучена именно на этих документах и учитывает их особенности.

Пандемия ускорила переход обработки в облако. Большинство лидеров рынка предлагают именно облачные системы. Так, ABBYY запустила платформу Vantage, а Microsoft развивает обучение документов в Azure Forms . Обе платформы позволяют подготовить и обучить систему извлечению значимых данных.

По сути, классические задачи простой индексации документов, то есть извлечения из них атрибутов, уходят в прошлое. Большинство проектов требуют не просто извлечения, но и детального анализа данных, а также выстраивания взаимосвязей между документами, что не только более ценно для компаний, но еще и упрощает работу в сравнении с классическим подходом. При наличии необходимых инструментов обучение нейросети может выполнить аналитик, а разработку шаблона выполняет только программист.

Что нужно учесть при выборе OCR-системы?

В первую очередь большое значение имеют возможности движка: он должен хорошо работать с кириллицей, что не все западные решения могут обеспечить. Более того, если компания должна соблюдать требования импортозамещения, ей нужен софт, включенный в единый реестр отечественного ПО.

Если предполагается распознавание сложных документов, особенно не текстовых, с нестандартным оформлением и структурой, не стоит полностью полагаться на встроенные инструменты решений RPA. Только OCR сможет обеспечить наилучшее качество распознавания данных.

В большинстве проектов после выбора движка требуется этап разработки шаблонов и интеграции OCR с другими системами, в том числе RPA и электронными архивами. Необходимо учесть совместимость движка и возможности вашего интегратора осуществлять работу с разными типами решений.

В ряде случаев значительный бизнес-эффект можно получить также от использования вместе с OCR технологий машинного обучения, компьютерного зрения и нейросетей. Этот продвинутый уровень позволяет быстро извлекать и анализировать данные из исходных источников любой сложности.