Зачем делать распознавание входящих документов?
Зачем делать распознавание входящих документов, если договор уже подписан, входящее письмо и факс получены, и в них уже нельзя вносить какие-либо изменения?
Распознавание документов и хранение в архиве Вопрос: В процессе работы в СЭД все входящие бумажные документы (договоры, факсы, письма) должны быть отсканированы и переведены в электронный вид. В нашей организации документы хранятся в СЭД в виде отсканированных изображений (графического файла в формате JPG или PDF) без возможности редактирования. Но есть возможность при вводе документов в систему осуществлять предварительное распознавание текста документа, после чего такой документ можно легко отредактировать. Зачем это нужно, если договор уже подписан, входящее письмо и факс получены, и в них уже нельзя вносить какие-либо изменения?
Ответ: Дело в том, что хранение нераспознанных документов не позволяет в полной мере использовать весь функционал СЭД в области работы с архивом документов. Важной функцией является не просто хранение графических образов документов, но и ускорение процесса поиска необходимой информации, что позволяет повысить эффективность работы сотрудников.
Согласитесь, что не всегда сотрудник может знать реквизиты документа (название, контрагента, дату создания и т. д.), но именно благодаря распознаванию графических документов, они станут доступны для полнотекстового поиска. Сотруднику не придется просматривать каждый графический документ (по сути — картинку) в поисках интересующей его информации. Более того, с помощью полнотекстового поиска по распознанным графическим документам в результате поискового запроса можно найти все документы, в которых упоминается интересующий сотрудника вопрос. Возможно, это поможет конкретному работнику более глубоко изучить данные, составить полную картину ситуации, ради которой он использовал поиск. Стоит отметить, что широкие возможности поиска информации ведут к наиболее эффективному использованию базы корпоративных знаний, что напрямую влияет на квалификацию ваших коллег.
Также распознавание существенно облегчит создание новых текстовых документов на основе существующего графического. При необходимости, скопировать распознанный текст графического документа и далее предать его редактуре гораздо быстрее и удобнее, чем долго и скрупулезно переносить данные в текстовый документ вручную.
Таким образом, распознавание графических документов с последующей возможностью полнотекстового поиска и редактирования — не только приятный бонус, но и реальный инструмент для повышения эффективности работы с электронными документами.
Источник: Журнал «Современные технологии делопроизводства и документооборота» № 10 2012
Комментарии 10
Не все утверждения мне представляются достаточно прозрачными. В частности:
Логичный встречный вопрос, а сможет ли сотрудник ввести правильной поисковый запрос для поиска договора? По каким именно словам искать конкретный договор, даже если этот договор не типовой? По имени организации? Так она и в реквизитах есть.
Ну и плюс, отвечая на подобный вопрос, я бы упомянул следующие моменты:
1. Любая дополнительная операция (а особенно операция распознавания) имеет свою цену.
Если функция распознавания действительно выполняется автоматически, без участия человека и ничего не стоит - это одно. Однако, все известное мне промышленное OCR ПО или требует работы работы оператора, или лицензируется по числу распознанных страниц.
Мало того, при потоковом вводе документов фоновое автоматическое распознавание документов дас очень приличную нагрузку на инфраструктуру СЭД. Вплоть до выделения специальных серверов ТОЛЬКО на станцию распознавания.
Всегд ли это оправданно? Думаю нет.
2. Качество распознавания.
От него зависит для каких целей вы сможете использовать документ. Например, для полнотекстового поиска (который все же считается функцией вспомогательной) подойдет текст и с 10-20% ошибок (особенно если потенциальные ошибки скрадываются алгоритмом построения полнотекстового индекса).
А вот в случае копирования данных между документами это может быть непремлемо, значит нужно внимательно смотреть данные при использовании, а в идеале сверять с первоисточником (нераспознанным документом) Кстати, ошибка не всегда так уж очевидна - например, когда вы копируете номер заказа, вы врятли сможете увидеть замену одной буквы на другую.
3. Как хранить распознанный вариант документа?
Отдельным документом - это значительно усложняет обработку (нужно следить за согласованностью прав на оба документа, за правильностью использования имено первоисточника в Workflow, ...). И даже просто ручная работа требует учета того, что в системе хранится 2 документа, которые по сути - одно и то же в разных форматах.
Если же использовать, например, механизм версий, который предоставляют некоторые системы, то это тоже задает кучу вопросов
Реально систем, в которых было именно понятие "документ в другом формате" я могу припомнить штуки две, но в обеих работать с такими документами было ничуть не удобнее, чем в остальных.
4. Помимо варианта распознавания документа до состояния "пригодно к редактированию" есть и другие, промежуточные варианты - например, сканированный документ со скрытым слоем "для поиска"
Этот вариант хоть и несколько урезан по применению, но зато решает (или частично решает) некоторые из перечисленных выше проблем.
Валентина, по вашему замечанию:
- все так и обстоит.
Просто, фразу Евгения следует, как я понимаю, читать так: "даже не зная метаданные документа, человек сможет ввести несколько слов, находящихся в тексте документа, и таким образом найти документ". Понятно, что это будет работать только если у нас есть распознанный текст, а не скан-образ.
Но вот на сколько такой поиск будет сравним по эффективности с поиском по реквизитам, вопрос открыт.
Лично я при поиске по договорным документам часто ищу по приложениям, если мне нужно найти когда и на каких условиях мы заказывали какую-то конкретную позицию. Этого в метаданных нет и в учетной системе тоже.
Лена высказала интересную мысль: порой значительная часть информации из входящих документов не попадает ни в одну информационную систему. Например, организация заказывает сувенирную продукцию. В учетные системы попадает только финансовая информация (итоговые суммы по всей накладной), а также часть метаданных: контрагент, дата, номер документа, номер договора и т.п. Сведения о товарных позициях могут не попасть в учетные системы, так как учет в них может вестись по более крупным аггрегациям (например, в случае с "малоценкой") или вестись только в суммовом выражении. И в метаданные скан-образа этого документа, хранимого в ECM-системе, такие данные могут не попасть. В таком случае сотруднику, чтобы найти договор или накладную, по которым поставлялись именно "красные шариковые ручки с золотым логотипом компании", нужно будет перерыть все накладные от данного поставщика (если ему вообще известен этот параметр). Возможно, просматривая скан-образы на экране, он сделает это быстрее, нежели роясь в подшивках бухгалтерских документов, но такой поиск не будет интеллектуальным, а значит, и быстрым.
В случае с распознаванием сканированных документов у сотрудника из вышеприведенного примера появляется шанс найти документ оперативнее. Разумеется, если распознанный текст вычищен от ошибок. Что пока не удается полностью автоматизировать.
Почему никто не поднимает тему собственно поиска. Есть ли на рынке системы с релевантным поиском документов? Я таких не знаю.
Все вендоры заявляют о наличии полнотекстового поиска, но умалчивают о том, что он мало полезен. Об огромных массивах значимо малоразличимых документов Михаил Романов уже сказал - там полнотекстовый поиск плохо работает.
Я хочу сделать акцент на другом примере. Предположим нам нужно найти "протокол №25". Введя в строку поиска текст "протокол 25", полнотекстовый поиск нам выдаст сначала несколько сотен документов (скорее всего совсем не протоколов), в которых слово "протокол" и цифра "25" встречается чаще всего, а потом уже сам этот протокол с номером 25.
Поэтому на мой взгляд технологии поиска в СЭД отстают от технологий распознавания, но серьезных обсуждений на эту тему нет...