Готовность к использованию технологий интеллектуальной обработки текстов
Варианты, технологи и цена вопроса интеллектуальной автоматизации.
Вопрос читателя: Достаточно ли растущих объемов регистрируемых и обрабатываемых документов для того, чтобы перейти к использованию технологий интеллектуальной обработки текстов?
Востребованность в автоматизации за счет применения новых технологических возможностей не вызывает сомнений. Поэтому, думаю, корректнее поставить обратный вопрос: Созрели ли технологии интеллектуальной обработки текстов для широкого применения в бизнесе?
Сначала уточним, что мы подразумеваем под технологиями интеллектуальной обработки текстов. Это аппаратно-программные решения, позволяющие решать следующие задачи:
● Автоматически классифицировать документ, т.е. распознать его вид (договор, счет и т.д.).
● Извлекать метаданные из текста документа. В контексте СЭД это будет, например, автоматическое заполнение полей регистрационно-контрольной карточки; для договора это могут быть номер, предмет договора, дата заключения, реквизиты контрагента и т.д.
● Обрабатывать документ в зависимости от извлеченных данных и настроенной прикладной логики. Например, если входящим документом является договор с организацией X, то отправить его на согласование ответственному Y.
Можно выделить несколько основных подходов к решению этих задач.
Во-первых, распознавание текста и обработка скан-образа документа на основе статических шаблонов, привязанных к координатной сетке. Вариант предполагает работу с документом, как с изображением. Алгоритмы ничего не знают о содержимом документа, они просто пытаются преобразовать выбранный фрагмент изображения из растрового представления в машиночитаемый текст. Это широко распространённый подход к автоматизации потокового ввода однотипных документов, он активно применяется во многих сферах, в том числе и в документообороте (например для счетов фактур, больничных листов, опросных листов и других однотипных форм). В качестве примера такого решения можно назвать ABBYY FlexiCapture.
Во-вторых, обработка текста документа на основе простых зависимостей и регулярных выражений. Вариант работает с документом как с текстом, алгоритмы пытаются извлечь необходимые данные на основе всевозможных зависимостей: наличие ключевых слов, порядок строк и слов, регулярные выражения (поиск строк определенной длины с определенным набором символов). Например, может использоваться поиск дат, ИНН, e-mail. Подобные решения отличаются своей простотой, как правило разрабатываются организациями для внутренних нужд и не тиражируются.
И наконец, семантический анализ текста документа. Это самый интересный и одновременно самый сложный в реализации вариант. Он предполагает полный семантический разбор текста документа и построение смыслового дерева. Алгоритмы буквально понимают «о чем идёт речь», они умеют выделять из текста ключевые онтологии и факты. Когда говорят об интеллектуальной обработке текстов, как правило, подразумевают именно этот подход. В качестве ориентира можно назвать ABBYY Compreno.
Однако у решений такого класса есть ряд важных недостатков, затрудняющий их активное применение в корпоративных системах:
● Низкая готовность. Подобные решения требуется дорабатывать под каждого заказчика, что сказывается на стоимости проекта и времени его реализации.
● Высокая стоимость владения. Используемые алгоритмы крайне ресурсоёмки, для их работы требуются мощные выделенные сервера.
● Высокая вычислительная сложность алгоритмов – обработка стандартного документа может занять несколько минут. Поэтому у сценариев применения есть важное ограничение в виде необходимости асинхронного выполнения. Другими словами, не получится применить технологию для работы с пользователем в режиме реального времени (загрузил документ – увидел результат).
● Входящие документы, в большинстве случаев, приходят в бумажном виде. Поэтому понадобится дополнительно приобретать дорогостоящее решение по преобразованию скан-образов в машиночитаемый текст.
В конечном итоге цена вопроса такой интеллектуальной автоматизации может значительно превысить существующие издержки на ручную и частично автоматизированную обработку документопотока, что ставит под вопрос рентабельность технологии для бизнеса. Поэтому большинство организаций останавливаются на первых двух вариантах. Примеров реальных проектов на основе семантического анализа текстов документов пока не так много, однако по мере развития технологий недостатки должны нивелироваться, а решения – становиться доступнее и привлекательнее.
Источник: Журнал "Современные технологии делопроизводства и документооборота" №4, 2016
Комментарии 0