Наверх

OCR (Optical Character Recognition)

Архив
Время чтения: 1 минута
0
OCR (Optical Character Recognition)

Оптическое распознавание символов

OCR (Optical Character Recognition), оптическое распознавание символов – технологии и класс программного обеспечения, транслирующего изображение напечатанных или написанных от руки текстов в машино-читаемые (или машино-редактируемые) тексты.

Основой для построения алгоритмов оптического распознавания служат методы напрямую пришедшие из таких областей как Компьютерное зрение и Распознавание шаблонов. Однако большинство современных OCR-программ для повышения качества распознавания используют встроенные лингвистические модули, которые могут включать в себя словари общей лексики или специализированные предметные словари (например, словари имен и фамилий, или названий городов), а также морфологические правила для построения форм слов, или, если слово совсем отсутствует в словаре, для проверки допустимых правил словообразования. Языки, для которых реализованы подобные модули носят названия языков со словарной поддержкой.

Помимо распознавания собственно символов, большинство промышленных OCR-систем позволяют воспроизводить элементы форматирования исходного текста, такие как картинки, колонки, начертание шрифта и другие не текстовые компоненты максимально близко к оригиналу.

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 0

Чтобы прокомментировать, или зарегистрируйтесь