Наверх

Оцифровка документов для архива: экспертный обзор сервисов

Время чтения: 10 минут
0
Оцифровка документов для архива: экспертный обзор сервисов

Как работают разные сервисы оцифровки архивов? Какие у них есть особенности? Как выбрать подходящий инструмент для перевода документов в электронный вид?

С каждым годом количество запросов на оцифровку архивных документов увеличивается. За последние 5 лет, по данным исследования закупок по 44-ФЗ и 223-ФЗ, наблюдается их стабильный прирост на 25-30%.

Но когда появляется задача, появляется и решение. В этой статье рассмотрим три сервиса по оцифровке документов.

Сервис Beorg

Продукт российской компании «Биорг», разработчика интеллектуальных систем на базе нейронных сетей и машинного обучения. В портфеле компании есть программное обеспечение (ПО) Bescan для распознавания документов и изображений. «Биорг» активно предлагает его бизнесу с целью оцифровки архивов.

Как это работает?

  1. Пользователь устанавливает ПО на локальный компьютер, к которому подключен сканер, и сканирует документ.
  2. После получения скан-образа ПО в фоновом режиме обрабатывает и улучшает изображение.
  3. Образ документа передается в облачный центр обработки данных (ЦОД) компании «Биорг».
  4. Система нейронных сетей и система операторов распознают документ, верифицируют извлеченные атрибуты.
  5. После верификации образ документа с набором атрибутов выгружается из ЦОДа в информационную систему пользователя или локальную папку.

Работа Биорг

Процесс работы Bescan (источник: beorg.ru)

Какие есть особенности?

  • Можно оцифровать рукописные документы. В этом помогают операторы.
  • Производится предобработка (поворот изображения, зачистка водяных знаков и прочее) изображения на локальном компьютере. Это делается в отдельном интерфейсе.
  • Возможность интеграции с разными информационными системами и выгрузка обработанных документов сразу в корпоративную систему компании.

Илья Петухов

Руководитель проектов развития AI-продуктов

Считаю решение интересным и передовым, но есть тонкости при передаче документов в облачные сервисы (то есть на сторону других компаний).

У «Биорга» большой штат операторов — порядка 50 тыс. человек, поэтому обработка и верификация документов протекают быстро. Чтобы воспользоваться решением, необходимо купить лицензию.

За распознавание рукописных документов установлена отдельная цена. В списке возможных для оцифровки документов не увидел нетиповые. Все кейсы, которые приводят коллеги — это бухгалтерские первичные документы, заявки и анкеты, а также различные реестры.

Сервис 100%-ного распознавания Directum Ario One

Продукт российской ИТ-компании Directum, разработчика ПО и сервисов для управления цифровыми процессами и документами. На рынке вендор хорошо известен своим флагманским продуктом — системой Directum RX.

В области ЕСМ и СЭД она занимает лидирующие позиции по количеству проектов внедрения не первый год. В портфеле продуктов компании есть Directum Ario One — это набор интеллектуальных сервисов и решений для роботизации обработки любой текстовой информации. И в рамках Ario One есть сервис 100%-ного распознавания.

Как это работает?

По схеме работы очень близко к продукту компании «Биорг», но есть несколько отличий:

  1. Предобработка делается автоматически с помощью интеллектуальных сервисов, то есть человеку не нужно на это тратить время.
  2. Сервис 100%-ного распознавания не требует установки дополнительного программного обеспечения на локальный компьютер. Это полностью облачное решение, данные в которое передаются через интеграцию из информационной системы заказчика. И сюда же выгружаются после верификации.
  3. Также есть набор готовых коннекторов к существующим корпоративным информационным системам, например, к Directum RX или 1С. С другими системами есть возможность настроить интеграции с помощью API. Такой сценарий использования не требует первоначальной настройки интеграции на уровне языков программирования.

Работа Directum Ario One

Какие есть особенности?

  • Компания Directum на уровне договора фиксирует ответственность за время и качество распознавания документов. По умолчанию, в документах указано время обработки документа 5 мин.
  • Оплата производится по факту. Пользователи сервиса оплачивают только распознанные документы, для этого каждый месяц предоставляется отчет о распознавании.
  • Сервис работает с рукописными документами и атрибутами, не вводит ограничения на виды и готов распознавать нетиповые группы документов (чертежи, кадастровые паспорта и другие).
  • Помимо основных атрибутов бухгалтерских документов, сервис распознает и верифицирует номенклатурную часть.
  • Zero UI. Отсутствие привычного пользовательского интерфейса. Предугадывание действий пользователя (документ помещен в папку — значит должен быть распознан, классифицирован и занесен в конечную систему).

Илья Петухов

Руководитель проектов развития AI-продуктов

В первую очередь это решение, разработанное компанией, которая уже более 30 лет на рынке СЭД и знает, как правильно организовать работу с документами и архивами.

Стоимость зависит от объема распознанной информации. Цена за 1 документ варьируется от 13 до 30 рублей в зависимости от сложности (наличия рукописных атрибутов, специфики документа, количества атрибутов и т. д.). На верификацию так же привлекаются операторы.

Интересно то, какие возможности открываются для пользователей экосистемы Directum. Так как система Directum RX имеет возможности организации финансового и долговременного архива, то при интеграции с сервисом 100%-ного распознавания пользователь закрывает сразу несколько задач.

Кроме базового распознавания документов, появляется возможность размещения их в финансовом архиве по различным критериям (по контрагенту, виду документа, ответственному менеджеру, сроку ответа и т. д.), а также организации долговременного архива кадровых и других документов согласно требованиям законодательства.

Сервис DBrain

Разработка российской компании «Дибрейн». Её специализация — продукты на базе машинного обучения для автоматизации работы с документами. На февраль 2022 года в штате более 30 сотрудников, но также имеется большой штат операторов данных. На каких условиях они работают, не уточняется.

Компания сотрудничает с проектом Яндекс.Толока — это открытая краудсорсинговая площадка с 6 млн исполнителей, которые размечают данные для их последующего использования в алгоритмах машинного обучения.

Для Dbrain предоставляются квалифицированные операторы, которые переписывают тексты из анонимных фрагментов документа и отправляют результат обратно в систему Dbrain, где на полученных данных обучается ИИ.

Как это работает?

Алгоритм работы похож на предыдущие два. Так же есть отправка документа в облако для обработки ИИ и верификации операторами.

Отличительная черта — возможность локального развертывания, но это потребует дорогого и мощного компьютерного оборудования.

Для понимания: в базовых рекомендациях к оборудованию указана видеокарта Nvidia Tesla T4, стоимость которой на рынке — от 207 тыс. рублей. При больших объёмах документов вам потребуется несколько таких видеокарт.

Это не последняя особенность, на которую стоит обратить внимание. Разберем детальнее.

Какие есть особенности?

  • При локальном развертывании необходимо устанавливать дополнительное программное обеспечение других разработчиков, а именно установщики Docker и PowerShell. Но при таком сценарии не стоит ждать 100%-но распознанный документ, его необходимо будет проверять силами ваших специалистов.
  • Ограниченный набор документов, преимущественно удостоверяющих личность (паспорт, СНИЛС, ОМС, водительское удостоверение и другие). В библиотеке присутствуют модели документов, удостоверяющие личность граждан СНГ, но это не массовые примеры, и они не всегда актуальны для российского рынка.
  • Привлечение операторов из Яндекса.Толоки. Этот момент требует предварительного обсуждения, так как вы передаете свои данные компании «Дибрейн», а они передают их на третью сторону для верификации.

    Схема ручного распознавания dbrain

  • При обработке документ делится на части. Интересное решение для повышения безопасности. Согласно официальной информации в системе «обрезанные» документы не хранятся, а удаляются сразу после передачи.
  • Разработчик на уровне договора фиксирует отсутствие каких-либо гарантий со своей стороны. Аргументирую это схемой «Как есть», а также ограничивает по количеству запросов, передаваемых технической поддержке.

Илья Петухов

Руководитель проектов развития AI-продуктов

Сервис удобен и эффективен для максимально структурированных документов, таких как паспорта, ПТС и другие. Да, он может работать с рукописными документами и атрибутами, но с подключением операторов Яндекс.Толоки. Отсюда — длительная обработка документов. На уровне интерфейса платформа Яндекса является агрегатором заданий по разметке для обучения ИИ, и задача от DBrain это «одна из списка». Оператор может взять в работу эту задачу, а может выбрать другую. Это можно увидеть на скриншоте.

Как выбрать подходящий инструмент для оцифровки документов?

Лучше сконцентрировать внимание на нескольких пунктах:

  1. Какие виды документов вы планируете оцифровывать?
  2. Рассмотренные сервисы работают в облаке для достижения 100%-ного результата. Вы готовы передавать данные в облачные сервисы?
  3. Обратите внимание на гибкость сервиса и его возможности интеграции с вашими информационными системами.

Также не стоит забывать о большом пласте компаний, которые оказывают услуги по оцифровке архивов с выездом на территорию заказчика. Кроме этого, всегда есть возможность развернуть сервисы и различные инструменты локально на своих мощностях, но при таком решении задач потребуется вовлечении ваших сотрудников для проверок и других действий.

Решение принимать вам, но стоит взвесить все за и против. Со стороны кажется, что оцифровать архив задача простая, но если сделать это некачественно, то в дальнейшем могут быть проблемы при работе с этим самым архивом, его контролем и выгрузкой документов.

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 0

Чтобы прокомментировать, или зарегистрируйтесь