Оцифровка документов для архива: экспертный обзор сервисов
Как работают разные сервисы оцифровки архивов? Какие у них есть особенности? Как выбрать подходящий инструмент для перевода документов в электронный вид?
С каждым годом количество запросов на оцифровку архивных документов увеличивается. За последние 5 лет, по данным исследования закупок по 44-ФЗ и 223-ФЗ, наблюдается их стабильный прирост на 25-30%.
Но когда появляется задача, появляется и решение. В этой статье рассмотрим три сервиса по оцифровке документов.
Сервис Beorg
Продукт российской компании «Биорг», разработчика интеллектуальных систем на базе нейронных сетей и машинного обучения. В портфеле компании есть программное обеспечение (ПО) Bescan для распознавания документов и изображений. «Биорг» активно предлагает его бизнесу с целью оцифровки архивов.
Как это работает?
- Пользователь устанавливает ПО на локальный компьютер, к которому подключен сканер, и сканирует документ.
- После получения скан-образа ПО в фоновом режиме обрабатывает и улучшает изображение.
- Образ документа передается в облачный центр обработки данных (ЦОД) компании «Биорг».
- Система нейронных сетей и система операторов распознают документ, верифицируют извлеченные атрибуты.
- После верификации образ документа с набором атрибутов выгружается из ЦОДа в информационную систему пользователя или локальную папку.
Процесс работы Bescan (источник: beorg.ru)
Какие есть особенности?
- Можно оцифровать рукописные документы. В этом помогают операторы.
- Производится предобработка (поворот изображения, зачистка водяных знаков и прочее) изображения на локальном компьютере. Это делается в отдельном интерфейсе.
- Возможность интеграции с разными информационными системами и выгрузка обработанных документов сразу в корпоративную систему компании.
Илья Петухов
Руководитель проектов развития AI-продуктов
Считаю решение интересным и передовым, но есть тонкости при передаче документов в облачные сервисы (то есть на сторону других компаний).
У «Биорга» большой штат операторов — порядка 50 тыс. человек, поэтому обработка и верификация документов протекают быстро. Чтобы воспользоваться решением, необходимо купить лицензию.
За распознавание рукописных документов установлена отдельная цена. В списке возможных для оцифровки документов не увидел нетиповые. Все кейсы, которые приводят коллеги — это бухгалтерские первичные документы, заявки и анкеты, а также различные реестры.
Сервис 100%-ного распознавания Directum Ario One
Продукт российской ИТ-компании Directum, разработчика ПО и сервисов для управления цифровыми процессами и документами. На рынке вендор хорошо известен своим флагманским продуктом — системой Directum RX.
В области ЕСМ и СЭД она занимает лидирующие позиции по количеству проектов внедрения не первый год. В портфеле продуктов компании есть Directum Ario One — это набор интеллектуальных сервисов и решений для роботизации обработки любой текстовой информации. И в рамках Ario One есть сервис 100%-ного распознавания.
Как это работает?
По схеме работы очень близко к продукту компании «Биорг», но есть несколько отличий:
- Предобработка делается автоматически с помощью интеллектуальных сервисов, то есть человеку не нужно на это тратить время.
- Сервис 100%-ного распознавания не требует установки дополнительного программного обеспечения на локальный компьютер. Это полностью облачное решение, данные в которое передаются через интеграцию из информационной системы заказчика. И сюда же выгружаются после верификации.
- Также есть набор готовых коннекторов к существующим корпоративным информационным системам, например, к Directum RX или 1С. С другими системами есть возможность настроить интеграции с помощью API. Такой сценарий использования не требует первоначальной настройки интеграции на уровне языков программирования.
Какие есть особенности?
- Компания Directum на уровне договора фиксирует ответственность за время и качество распознавания документов. По умолчанию, в документах указано время обработки документа 5 мин.
- Оплата производится по факту. Пользователи сервиса оплачивают только распознанные документы, для этого каждый месяц предоставляется отчет о распознавании.
- Сервис работает с рукописными документами и атрибутами, не вводит ограничения на виды и готов распознавать нетиповые группы документов (чертежи, кадастровые паспорта и другие).
- Помимо основных атрибутов бухгалтерских документов, сервис распознает и верифицирует номенклатурную часть.
- Zero UI. Отсутствие привычного пользовательского интерфейса. Предугадывание действий пользователя (документ помещен в папку — значит должен быть распознан, классифицирован и занесен в конечную систему).
Илья Петухов
Руководитель проектов развития AI-продуктов
В первую очередь это решение, разработанное компанией, которая уже более 30 лет на рынке СЭД и знает, как правильно организовать работу с документами и архивами.
Стоимость зависит от объема распознанной информации. Цена за 1 документ варьируется от 13 до 30 рублей в зависимости от сложности (наличия рукописных атрибутов, специфики документа, количества атрибутов и т. д.). На верификацию так же привлекаются операторы.
Интересно то, какие возможности открываются для пользователей экосистемы Directum. Так как система Directum RX имеет возможности организации финансового и долговременного архива, то при интеграции с сервисом 100%-ного распознавания пользователь закрывает сразу несколько задач.
Кроме базового распознавания документов, появляется возможность размещения их в финансовом архиве по различным критериям (по контрагенту, виду документа, ответственному менеджеру, сроку ответа и т. д.), а также организации долговременного архива кадровых и других документов согласно требованиям законодательства.
Сервис DBrain
Разработка российской компании «Дибрейн». Её специализация — продукты на базе машинного обучения для автоматизации работы с документами. На февраль 2022 года в штате более 30 сотрудников, но также имеется большой штат операторов данных. На каких условиях они работают, не уточняется.
Компания сотрудничает с проектом Яндекс.Толока — это открытая краудсорсинговая площадка с 6 млн исполнителей, которые размечают данные для их последующего использования в алгоритмах машинного обучения.
Для Dbrain предоставляются квалифицированные операторы, которые переписывают тексты из анонимных фрагментов документа и отправляют результат обратно в систему Dbrain, где на полученных данных обучается ИИ.
Как это работает?
Алгоритм работы похож на предыдущие два. Так же есть отправка документа в облако для обработки ИИ и верификации операторами.
Отличительная черта — возможность локального развертывания, но это потребует дорогого и мощного компьютерного оборудования.
Для понимания: в базовых рекомендациях к оборудованию указана видеокарта Nvidia Tesla T4, стоимость которой на рынке — от 207 тыс. рублей. При больших объёмах документов вам потребуется несколько таких видеокарт.
Это не последняя особенность, на которую стоит обратить внимание. Разберем детальнее.
Какие есть особенности?
- При локальном развертывании необходимо устанавливать дополнительное программное обеспечение других разработчиков, а именно установщики Docker и PowerShell. Но при таком сценарии не стоит ждать 100%-но распознанный документ, его необходимо будет проверять силами ваших специалистов.
- Ограниченный набор документов, преимущественно удостоверяющих личность (паспорт, СНИЛС, ОМС, водительское удостоверение и другие). В библиотеке присутствуют модели документов, удостоверяющие личность граждан СНГ, но это не массовые примеры, и они не всегда актуальны для российского рынка.
- Привлечение операторов из Яндекса.Толоки. Этот момент требует предварительного обсуждения, так как вы передаете свои данные компании «Дибрейн», а они передают их на третью сторону для верификации.
- При обработке документ делится на части. Интересное решение для повышения безопасности. Согласно официальной информации в системе «обрезанные» документы не хранятся, а удаляются сразу после передачи.
- Разработчик на уровне договора фиксирует отсутствие каких-либо гарантий со своей стороны. Аргументирую это схемой «Как есть», а также ограничивает по количеству запросов, передаваемых технической поддержке.
Илья Петухов
Руководитель проектов развития AI-продуктов
Сервис удобен и эффективен для максимально структурированных документов, таких как паспорта, ПТС и другие. Да, он может работать с рукописными документами и атрибутами, но с подключением операторов Яндекс.Толоки. Отсюда — длительная обработка документов. На уровне интерфейса платформа Яндекса является агрегатором заданий по разметке для обучения ИИ, и задача от DBrain это «одна из списка». Оператор может взять в работу эту задачу, а может выбрать другую. Это можно увидеть на скриншоте.
Как выбрать подходящий инструмент для оцифровки документов?
Лучше сконцентрировать внимание на нескольких пунктах:
- Какие виды документов вы планируете оцифровывать?
- Рассмотренные сервисы работают в облаке для достижения 100%-ного результата. Вы готовы передавать данные в облачные сервисы?
- Обратите внимание на гибкость сервиса и его возможности интеграции с вашими информационными системами.
Также не стоит забывать о большом пласте компаний, которые оказывают услуги по оцифровке архивов с выездом на территорию заказчика. Кроме этого, всегда есть возможность развернуть сервисы и различные инструменты локально на своих мощностях, но при таком решении задач потребуется вовлечении ваших сотрудников для проверок и других действий.
Решение принимать вам, но стоит взвесить все за и против. Со стороны кажется, что оцифровать архив задача простая, но если сделать это некачественно, то в дальнейшем могут быть проблемы при работе с этим самым архивом, его контролем и выгрузкой документов.
Комментарии 0