Когда нужен OCR?
В каких ситуациях применима эта технология, а когда излишне.
Вот стандартная задача для любого внедрения систем документооборота (да и просто перехода к безбумажным документам): перевод документов бумажных, в документы электронные.
Техпроцесс давно изучен и в общем-то не очень сложен. Но вот вопрос: всегда ли при переводе бумаги в цифру, есть смысл в распознавании документов? Какие есть плюсы и минус у распознанного документа? Мне представляется, что такие.
Плюсы:
● Документ можно легко править, комментировать, в общем, изменять (комментировать, в прочем, можно и нераспознанные документы, но для этого нужны или специальные средства, или специальные форматы).
● Документ легко читать с экрана, причем, не обязательно широкоформатного. Например, с экрана КПК. Здесь я имею в виду, что у распознанного есть возможность не только линейного масштабирования, но и, например, изменения форматирования документа для улучшения читабельности. Например, можно использовать переносы слов, изменять размеры страницы, … (опять же, можно вспомнить, что похожие технологии есть и для scan-документов, например, тот же SmartDjvu)
● Из документа можно извлекать данные для дальнейшей обработки. Например, считывать суммы в формах.
● Распознанный документ можно найти по содержанию.
Минусы: в основном это минусы, связанные с удорожанием процесса, а именно:
● Нужно дополнительное оборудование и/или ПО.
● Нужна последующая «вычитка» документов, если мы хотим точности или придется смириться с возможными искажениями в документе.
● Необходимо, все-таки, сохранять и распознанный, и исходный документ. Это требование вытекает из того соображения, что ни одна система оптического распознавания не обеспечивает 100% точности распознавания.
Так когда нужно, и когда не нужно использовать OCR?
Мне кажется, что так:
Не нужно: Для официальных и финансовых документов (договоров, писем, счетов, …). За исключением случаев, когда нужно вводить в систему данные из фиксированных форм. Использовать распознавание только для полнотекстового поиска здесь вряд ли целесообразно (ну как найти по содержанию договора, если они и отличаются зачастую, только названиями сторон?).
Нужно: Для всевозможной технической документации (хотя, сейчас отсутствие документации в электронном формате скорее нонсенс), для документов, которые будут правиться или обрабатываться автоматически (например, формы), и … пожалуй все.
А кто как смотрит на этот вопрос?
Комментарии 9
Объяснить рядовому бухгалтеру, что в этом документе нельзя поправить пару слов/цифр и распечатать, конечно можно, но, как правило, вводит человек в ступор (проверено неоднократно).
Не уверен, что бухгалтеру что-то нужно править во входящих документах...
Не уверен что стоит путать понятия "исправление документа" и "создание копии документа с целью исправления". Это разные вещи.
Вот буквально вчера видел, как из входящего документа делали исходящий: скопировали, изменили все данные, но оставили оформление (для чего и выполнялось копирование). Хорошо, что первоначальный документ был получен по e-mail (в виде xls-файла), а не по факсу.
OCR здесь ни при чем. Распознан был бы факсовый документ, или нет - все равно, подозреваю, документ создали бы заново: копировать себе дороже.
Поэтому в случае, когда нужно править входящий документ, лучше обмениваться исходным, редактируемым вариантом (например, договор на согласование и т.д.). Когда нужно копировать оформление входящего документа (что это за ситуации?), лучше уж запросить исходный шаблон...
К тому же я не увидел слова "входящие" от автора (Михаила Романова).
Не согласен с утверждением, что распознавание, а тем более автоматическое, нужно всегда. Автоматическое распознавание грешит качеством выходных данных, а сверять электронную версию с бумажной не хватит людских ресурсов, так как в особо бумажных конторах количество документов исчисляется миллионами. И в то, что "непродвинутый" пользователь, увидев нечитаемый участок распознанного документа, начнет разыскивать его скан для сверки, верится с великим трудом. А если OCR ошибется и выдаст, например, "60" как "80", то это и вовсе останется тайной для всех.
По моему проще один раз объяснить "непродвинутым", что это за картинки в системе. В крайнем случае, "картинка" может быть распознана по запросу.
Надо, не надо... Хорошо, плохо... Купите тупо ченить типа ABBYY Recognition Server и поставьте галочку - "Текст поверх картинке в PDF"... В тоге у пользователя перед глазами картинка, но с возможностью выделить подложку, где находиться распознанный текст... В итоге и поиск по документу есть и скопировать текст можно... Чтоб скопировать грамотно а не в txt потребуется конечно Acrobat Professional, но он стоит того чтоб его купить или украсть на худой противозаконный конец. При этом все распознавание будет идти автоматом при импорте в хранилища документов не отвлекая никого... А то что дорого... жизнь вообще дорогая, это не повод компаниям изображть из себя бедных и жалких... А если бедные и жалкие то и бог с ними...
2Виктор Золотов:
А много ли смысла в сохранении текста в формате "картинка под текстом" или "текст под картинкой"? Только ради поиска?
"...и скопировать текст можно... Чтоб скопировать грамотно а не в txt потребуется конечно Acrobat Professional, но он стоит того чтоб его купить или украсть на худой противозаконный конец."