Журнал о системах электронного документооборота (СЭД)
Разные задачи в ECM

Когда нужен OCR?

  9 комментариев Добавить в закладки

Вот стандартная задача для любого внедрения систем документооборота (да и просто перехода к безбумажным документам): перевод документов бумажных, в документы электронные.

Техпроцесс давно изучен и в общем-то не очень сложен. Но вот вопрос: всегда ли при переводе бумаги в цифру, есть смысл в распознавании документов? Какие есть плюсы и минус у распознанного документа? Мне представляется, что такие.

 

Плюсы:

●     Документ можно легко править, комментировать, в общем, изменять (комментировать, в прочем, можно и нераспознанные документы, но для этого нужны или специальные средства, или специальные форматы).

●     Документ легко читать с экрана, причем, не обязательно широкоформатного. Например, с экрана КПК. Здесь я имею в виду, что у распознанного есть возможность не только линейного масштабирования, но и, например, изменения форматирования документа для улучшения читабельности. Например, можно использовать переносы слов, изменять размеры страницы, … (опять же, можно вспомнить, что похожие технологии есть и для scan-документов, например, тот же SmartDjvu)

●     Из документа можно извлекать данные для дальнейшей обработки. Например, считывать суммы в формах.

●     Распознанный документ можно найти по содержанию.

 

Минусы: в основном это минусы, связанные с удорожанием процесса, а именно:

●     Нужно дополнительное оборудование и/или ПО.

●     Нужна последующая «вычитка» документов, если мы хотим точности или придется смириться с возможными искажениями в документе.

●     Необходимо, все-таки, сохранять и распознанный, и исходный документ. Это требование вытекает из того соображения, что ни одна система оптического распознавания не обеспечивает 100% точности распознавания.

 

Так когда нужно, и когда не нужно использовать OCR?

Мне кажется, что так:

Не нужно: Для официальных и финансовых документов (договоров, писем, счетов, …). За исключением случаев, когда нужно вводить в систему данные из фиксированных форм. Использовать распознавание только для полнотекстового поиска здесь вряд ли целесообразно (ну как найти по содержанию договора, если они и отличаются зачастую, только названиями сторон?).

Нужно: Для всевозможной технической документации (хотя, сейчас отсутствие документации в электронном формате скорее нонсенс), для документов, которые будут правиться или обрабатываться автоматически (например, формы), и … пожалуй все.

 

А кто как смотрит на этот вопрос?

Ещё материалы автора
Похожие записи
Комментарии (9)
Андрей Подкин 05 декабря 2006 г. 11:16  
Разпознавание нужно всегда, если есть холь малейший шанс наличия не "продвинутого" пользователя.
Объяснить рядовому бухгалтеру, что в этом документе нельзя поправить пару слов/цифр и распечатать, конечно можно, но, как правило, вводит человек в ступор (проверено неоднократно).
Максим Галимов 05 декабря 2006 г. 14:46  

Не уверен, что бухгалтеру что-то нужно править во входящих документах...

Андрей Подкин 05 декабря 2006 г. 15:13  
Максим Галимов:
Не уверен что стоит путать понятия "исправление документа" и "создание копии документа с целью исправления". Это разные вещи.
Вот буквально вчера видел, как из входящего документа делали исходящий: скопировали, изменили все данные, но оставили оформление (для чего и выполнялось копирование). Хорошо, что первоначальный документ был получен по e-mail (в виде xls-файла), а не по факсу.
Максим Галимов 05 декабря 2006 г. 15:19  

OCR здесь ни при чем. Распознан был бы факсовый документ, или нет - все равно, подозреваю, документ создали бы заново: копировать себе дороже.

Поэтому в случае, когда нужно править входящий документ, лучше обмениваться исходным, редактируемым вариантом (например, договор на согласование и т.д.). Когда нужно копировать оформление входящего документа (что это за ситуации?), лучше уж запросить исходный шаблон...

Андрей Подкин 05 декабря 2006 г. 15:34  
По-моему мы спорим о разных вещах. Пообщайтесь с бухгалтерами на реальных задачах, они вам расскажут много интересных слов про предложение "Запросить шаблон" (когда нужен готовый документ через 15 минут).
К тому же я не увидел слова "входящие" от автора (Михаила Романова).
Минич Денис 05 февраля 2007 г. 17:30  

Не согласен с утверждением, что распознавание, а тем более автоматическое, нужно всегда. Автоматическое распознавание грешит качеством выходных данных, а сверять электронную версию с бумажной не хватит людских ресурсов, так как в особо бумажных конторах количество документов исчисляется миллионами. И в то, что "непродвинутый" пользователь, увидев нечитаемый участок распознанного документа, начнет разыскивать его скан для сверки, верится с великим трудом. А если OCR ошибется и выдаст, например, "60" как "80", то это и вовсе останется тайной для всех.

По моему проще один раз объяснить "непродвинутым", что это за картинки в системе. В крайнем случае, "картинка" может быть распознана по запросу.

Виктор Золотов 05 августа 2007 г. 13:42  

Надо, не надо... Хорошо, плохо... Купите тупо ченить типа ABBYY Recognition Server и поставьте галочку - "Текст поверх картинке в PDF"... В тоге у пользователя перед глазами картинка, но с возможностью выделить подложку, где находиться распознанный текст... В итоге и поиск по документу есть и скопировать текст можно... Чтоб скопировать грамотно а не в txt потребуется конечно Acrobat Professional, но он стоит того чтоб его купить или украсть на худой противозаконный конец. При этом все распознавание будет идти автоматом при импорте в хранилища документов не отвлекая никого... А то что дорого... жизнь вообще дорогая, это не повод компаниям изображть из себя бедных и жалких... А если бедные и жалкие то и бог с ними...

Михаил Романов 06 августа 2007 г. 08:24  

2Виктор Золотов:

А много ли смысла в сохранении текста в формате "картинка под текстом" или "текст под картинкой"? Только ради поиска?

Виктор Золотов 06 августа 2007 г. 17:05  
Для тех, кто на бронепоезде повторяю фрагмент своего мега комментария:

"...и скопировать текст можно... Чтоб скопировать грамотно а не в txt потребуется конечно Acrobat Professional, но он стоит того чтоб его купить или украсть на худой противозаконный конец."
Сейчас обсуждают
Больше комментариев