Наверх

Супер OCR-программы

Архив
Время чтения: 10 минут
0
Супер OCR-программы

Внимание!!! В вашей компании орудует подлый преступник. Это злобное чудовище исповедует культ ошибок, обожает транжирить время и существует лишь для того, воровать ваши деньги, лишая вас прибыли. Так кто же это?

Майк Стули

президент компаний Formtran, Inc. и GoScan, Inc.

Куда развивались OCR-программы и что они могут

Внимание!!! В вашей компании орудует подлый преступник. Это злобное чудовище исповедует культ ошибок, обожает транжирить время и существует лишь для того, воровать ваши деньги, лишая вас прибыли. Так кто же это? Этот монстр именуется ручным вводом данных. И что же может спасти нас? Это птица, это самолет, это супер OCR-программа. (Имеется в виду название популярного бродвейского мюзикла (1966) и одноименной телепостановки (1975) «Это птица, Это самолет, Это Супермен» («It’s a bird, It’s a plane, It’s Superman»).) Известно, что обычная OCR-программа экономит время и деньги на ручном вводе данных со статичных форм. Супер OCR-программа обладает возможностью считывать поля произвольных форм. Нужная вам информация может располагаться в различных областях разных форм, каждый форма может выглядеть произвольно, и даже само поле может по-разному называться в каждой конкретной форме.

OCR-программы нового поколения

Можете себе представить банк, который ведет счета, обходясь без компьютера? Это возможно, однако это будет медленно, дорого и уж определенно с кучей ошибок. Почему люди вынуждены вводить информацию с печатных форм в компьютер вручную? Компьютер, способный обрабатывать формы, мог бы работать эффективно и безошибочно. Он мог бы каждый раз устанавливать одни и те же бизнес-правила. Он бы запросто смог заменить пятерых. Те пятеро стали бы счастливее, и их руководство могло им поручить выполнения других, более полезных, задач.

OCR-программы, считывающие данные из определенных полей формы, существуют вот уже более 20 лет. Но в недалеком прошлом они могли обрабатывать только стандартные формы, которые никогда не менялись, а данные в них всегда находились в одних и тех же местах. Такие OCR-системы были разработаны для распознавания «рукопечатных» символов (ICR), печатных шрифтов (OCR), полей для проставления отметки («галочки») (OMR), а также штрих-кодов.

Этого было достаточно для большинства форм, таких как, налоговые декларации, тесты и анкеты, одним словом, это работало в случаях, когда сначала массово раздавались типовые формы, потом они заполнялись, собирались и централизованно обрабатывались. Однако обработка форм, заполненных от руки печатными буквами – это очень сложный процесс, требующий переконструирования формы, а также неусыпного контроля со стороны оператора. Несмотря на то, что OCR-программы для типовых форм помогают организации автоматизировать обработку некоторого количества документов, их все же невозможно применить для обработки большинства документов, которые на самом деле сильно отличаются друг от друга.

Похожие, но не идентичные

Счета, коммунальные платежи, транспортные накладные и бланки страховых возмещений – это все примеры документов, которые отображают деловые операции между двумя сторонами. Для стороны-отправителя документы являются идентичными, но с различными данными. Для стороны-получателя эти документы являются похожими, но не идентичными. Данные, которые необходимо считать, в принципе, одни и те же, но в разных документах они находятся в различных местах.

Документы, которые содержат похожие данные, можно также назвать полуструктурированными. Так как эти типы форм генерировались при помощи компьютера, они обычно имеют некоторую общую структуру, что облегчает автоматизацию процесса их обработки. В частности, от OCR-программы не требуется распознавание рукопечатных символов, и она может сосредоточиться на нахождении и распознавании нужных полей, представленные в машинописном виде. Поскольку эти типы форм похожи, можно сформировать некие правила поиска областей ввода данных. Правила могут быть многоуровневыми, и программа может опираться на предыдущее правило для выбора следующего.

Обработка полуструктурированных документов во многом стала возможна благодаря последним достижениям в области программного обеспечения OCR, таких как снижение стоимости, расширенные  возможности распознавания и обновленная логика, например, автоматическое распознавание таблиц. Снижение стоимости ведет к росту количество компаний, которые могут себе позволить усовершенствованные OCR-программы. Расширенные возможности распознавания означают, что OCR-программа может определять положение и распознавать символы большинства шрифтов, вне зависимости от высоты знаков и типов принтеров. Ввиду того, что множество документов содержит таблицы, автоматическое распознавание таблиц значительно улучшает процесс оптического распознавания за счет уменьшения времени на перенастройку и корректной идентификации  полей таблицы.

Как работает супер OCR-программа

Процесс распознавания произвольной формы при помощи супер OCR-программы   разных производителей может иметь некоторые различия, но обычно он состоит из следующих четырех основных шагов:

●     разметка документа;

●     ввод изображения;

●     валидизация;

●     экспорт.

Разметка документа

Для того чтобы «отправиться в плавание» по форме, нужны некоторые ориентиры. Заголовки, логотипы и линии – все они могут быть хорошими ориентирами. Эти ориентиры являются своего рода «якорями». Например, номер счета обычно расположен на бланке где-то справа или под словами «Номер счета». Также он может быть обозначен как «№ счета» или «No счета» или еще как-нибудь – в общем, вариантов может быть множество. Указав программе 10 возможных способов обозначения номера счета и отметив, что сам номер счета может располагаться ниже или справа обозначения, можно заставить программу найти в тексте документа номер счета. Этот процесс построения схемы взаимного расположения якоря и поля следует повторить для всех остальных ключевых полей формы.

Разметка таблиц

Множество форм содержат в себе таблицы. Если вы сможете идентифицировать заголовок таблицы и его поля, большинство супер OCR-программ смогут автоматически определить строки и столбцы таблицы. Если вам заранее известно количество строк и столбцов таблицы (как, например, в форме коммунальных платежей), настроить OCR-программу становится еще легче. Сумев определить заголовок, строки и столбцы таблицы, OCR-программа сможет определить каждый элемент в таблице, даже если число строк и столбцов меняется от формы к форме.

Введение ограничений

Когда мы читаем что-либо, мы лучше понимаем отдельные детали, если они «в контексте» прочитанного. То же самое и с OCR-программой. Определение положения и точность распознавания будут выше, если вы сможете указать OCR-программе, что дата счета всегда представлена в формате «ММ/ДД/ГГГГ». Если вы укажете, что месяц и день всегда представлены двумя цифрами, а год – четырьмя, это здорово упростит процесс. Если вы укажете, в написании даты всегда используются разделители «/» или «-», вы дадите OCR-программе более широкие возможности по определению положения и распознавания поля. Введение большего количества подобных ограничений означает более высокую точность распознавания  и согласованность данных.

Ввод изображения

Для работы супер OCR-программе нужно лишь изображение. Изображения могут поступать со сканера, факса, сетевого копира или любого другого устройства, способного сохранить изображение в формате TIFF или PDF.

Конечно, все эти устройства различны по скорости, разрешению, качеству механизма автоподачи, но даже недорогие сканеры могут сканировать с разрешением 200 или 300 dpi, что вполне достаточно для распознавания текста. Сканирующие устройства сегодня достаточно дешевы, чтобы все удаленные пользователи могли их себе позволить и отправлять по сети сканированные изображения вместо отправки по почте бумажных форм.

Валидация

Компьютерам великолепно удается соблюдать правила. Компьютеры ничего не придумывают и не делают исключений. Обрабатывая формы, мы хотим получить максимально точные и согласованные данные. Поэтому валидизация означает не только проверку данных, но и их корректировку.

Проверка данных может вручную осуществляться оператором, просматривающим введенное изображение, или самой OCR-программой. Например, если в каком-либо счете не указана дата, оператор может просмотреть изображение и принять какое-либо решение. Если обработка счета производится OCR-программой, она может решить данную проблему, если будет заранее проинструктирована отправить этот счет по факсу приславшей его компании, с пометкой об отсутствии даты счета.

Обычно корректировка данных осуществляется компьютером. Например, если  в счете в графе «код службы доставки» указано «Federal Express Priority», а в базе данных требуется использовать аббревиатуру «FEP», OCR-программа может сама произвести замену. Не смотря на то, что чисто технически это может и не является функцией OCR, зачастую корректировка данных осуществляется именно OCR-программой, поскольку мы хотим, что бы наши приложения на входе получали непротиворечивые и систематизированные данные.

Экспорт

Одним из неоспоримых преимуществ супер OCR-программы является то, что она способна одновременно экспортировать и данные, и изображения. Во многих организациях одновременно трудится и система управления электронным контентом (ECMS) и финансовое программное обеспечение. При получении компанией счета изображение последнего должно быть отправлено в ECM-систему, тогда как данные, извлеченные из счета, должны быть переданы для дальнейшей обработки в финансовую систему. Так OCR-программа позволяет передавать данные и изображения в различные системы в различных форматах. Например, она в одно и то же время может отправить PDF файл в ECMS и XML файл в финансовую систему.

Выбор правильного проекта для супер OCR-программы

Для начала работы с OCR-программой подберите более или менее структурированные формы   с различимыми символами, и в которых вы сможете распознать большинство нужных вам полей по их названию. Низкое качество документа является криптонитом (криптонит – камень с планеты Криптонв комиксах и фильмах о Супермене; губителен для Супермена) для Супер OCR-программы. Если вы и сами не в состоянии прочитать то, что напечатано в форме, то весьма и весьма маловероятно, что OCR-программа сможет это сделать. Это обычное дело для факсов, копий документов, сделанных под копирку, и некоторых форм, распечатанных на матричном принтере. Полное отсутствие структуры также может стать проблемой: если в форме отсутствуют ориентиры, то для OCR-программы будет сложно найти, а затем распознать нужные поля.

Что интересно, супер OCR технология позволяет лучше справляться с распознаванием фиксированных форм, потому что она привыкла иметь дело с   изменчивостью, свойственной обработке данных реальных форм.  Например, налоговая декларация после распечатки, распространения и заполнения возвращается обратно для сканирования. Печать на принтере и сканирование вносит элемент изменчивости для различных экземпляров.  В OCR-программе, ориентированной на обработку статических форм вы рисуете рамку вокруг области изображения ожидая, что поле окажется где-то внутри рамки. В случае с супер OCR-программой вы просто задаете программе ориентиры, и она точно находит нужное вам поле. В общем, поскольку местоположение определяется точнее, то и достоверность получаемых данных оказывается выше.

Определившись с проектом, вы дальше вправе выбирать – купить ли OCR-движок и разработать свое собственное приложение, или приобрести имеющиеся на рынке готовые OCR-программы, что обычно быстрее и дешевле. Если же готовая OCR-программа не в состоянии качественно обработать ваши формы или вам нужны какие-либо специальные возможности, вы всегда сможете выбрать  OCR-движок из представленных на рынке.

Заключение

Супер OCR является долгожданным развитием OCR технологий, что обеспечивает более привлекательную цену, расширенные возможности распознавания и логику для обработки произвольных форм. Надеемся, что это новое поколение OCR-программ поможет вам сэкономить время и деньги на большинстве бизнес-операций, связанных с распознаванием печатных форм.

Майк Стули является президентом компаний Formtran, Inc. и GoScan, Inc.– производителей программного обеспечения в отрасли распознавании изображений. Имея 16-летний опыт работы в отрасли программного обеспечения и занимая руководящие должности в Scantron and Cardiff Software, он часто выступает с докладами на отраслевых мероприятиях.

Перевод компании DIRECTUM.

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 0

Чтобы прокомментировать, или зарегистрируйтесь