Вот стандартная задача для любого внедрения систем
документооборота (да и просто перехода к безбумажным документам): перевод
документов бумажных, в документы электронные.
Техпроцесс давно изучен и в общем-то не очень сложен. Но
вот вопрос: всегда ли при переводе бумаги в цифру, есть смысл в распознавании
документов? Какие есть плюсы и минус у распознанного документа? Мне
представляется, что такие.
Плюсы:
● Документ
можно легко править, комментировать, в общем, изменять (комментировать, в
прочем, можно и нераспознанные документы, но для этого нужны или специальные
средства, или специальные форматы).
● Документ
легко читать с экрана, причем, не обязательно широкоформатного. Например, с
экрана КПК. Здесь я имею в виду, что у распознанного есть возможность не только
линейного масштабирования, но и, например, изменения форматирования документа
для улучшения читабельности. Например, можно использовать переносы слов,
изменять размеры страницы, … (опять же, можно вспомнить, что похожие технологии
есть и для scan-документов,
например, тот же SmartDjvu)
● Из
документа можно извлекать данные для дальнейшей обработки. Например, считывать
суммы в формах.
● Распознанный
документ можно найти по содержанию.
Минусы:
в основном это минусы, связанные с удорожанием процесса, а именно:
● Нужно
дополнительное оборудование и/или ПО.
● Нужна
последующая «вычитка» документов, если мы хотим точности или придется смириться
с возможными искажениями в документе.
● Необходимо,
все-таки, сохранять и распознанный, и исходный документ. Это требование вытекает
из того соображения, что ни одна система оптического распознавания не
обеспечивает 100% точности распознавания.
Так когда нужно, и когда
не нужно использовать OCR?
Мне кажется, что так:
Не
нужно: Для официальных и финансовых документов (договоров, писем, счетов,
…). За исключением случаев, когда нужно вводить в систему данные из
фиксированных форм. Использовать распознавание только для полнотекстового
поиска здесь вряд ли целесообразно (ну как найти по содержанию договора, если
они и отличаются зачастую, только названиями сторон?).
Нужно:
Для всевозможной технической документации (хотя, сейчас отсутствие документации
в электронном формате скорее нонсенс), для документов, которые будут правиться
или обрабатываться автоматически (например, формы), и … пожалуй все.
А кто как смотрит на этот вопрос?