Журнал о системах электронного документооборота (СЭД)
Разные задачи в ECM

OCR (Optical Character Recognition)

  0 комментариев Добавить в закладки

OCR (Optical Character Recognition), оптическое распознавание символов – технологии и класс программного обеспечения, транслирующего изображение напечатанных или написанных от руки текстов в машино-читаемые (или машино-редактируемые) тексты.

Основой для построения алгоритмов оптического распознавания служат методы напрямую пришедшие из таких областей как Компьютерное зрение и Распознавание шаблонов. Однако большинство современных OCR-программ для повышения качества распознавания используют встроенные лингвистические модули, которые могут включать в себя словари общей лексики или специализированные предметные словари (например, словари имен и фамилий, или названий городов), а также морфологические правила для построения форм слов, или, если слово совсем отсутствует в словаре, для проверки допустимых правил словообразования. Языки, для которых реализованы подобные модули носят названия языков со словарной поддержкой.

Помимо распознавания собственно символов, большинство промышленных OCR-систем позволяют воспроизводить элементы форматирования исходного текста, такие как картинки, колонки, начертание шрифта и другие не текстовые компоненты максимально близко к оригиналу.

Похожие записи
Комментарии (0)
Сейчас обсуждают
Больше комментариев