Журнал о системах электронного документооборота (СЭД)
Управление контентом

Готовность к использованию технологий интеллектуальной обработки текстов

  0 комментариев Добавить в закладки

Вопрос читателя: Достаточно ли растущих объемов регистрируемых и обрабатываемых документов для того, чтобы перейти к использованию технологий интеллектуальной обработки текстов?

 

 

Востребованность в автоматизации за счет применения новых технологических возможностей не вызывает сомнений. Поэтому, думаю, корректнее поставить обратный вопрос: Созрели ли технологии интеллектуальной обработки текстов для широкого применения в бизнесе?

 

Сначала уточним, что мы подразумеваем под технологиями интеллектуальной обработки текстов. Это аппаратно-программные решения, позволяющие решать следующие задачи:

●    Автоматически классифицировать документ, т.е. распознать его вид (договор, счет и т.д.).

●    Извлекать метаданные из текста документа. В контексте СЭД это будет, например, автоматическое заполнение полей регистрационно-контрольной карточки; для договора это могут быть номер, предмет договора, дата заключения, реквизиты контрагента и т.д.

●    Обрабатывать документ в зависимости от извлеченных данных и настроенной прикладной логики. Например, если входящим документом является договор с организацией X, то отправить его на согласование ответственному Y.

Можно выделить несколько основных подходов к решению этих задач.

Во-первых, распознавание текста и обработка скан-образа документа на основе статических шаблонов, привязанных к координатной сетке. Вариант предполагает работу с документом, как с изображением. Алгоритмы ничего не знают о содержимом документа, они просто пытаются преобразовать выбранный фрагмент изображения из растрового представления в машиночитаемый текст. Это широко распространённый подход к автоматизации потокового ввода однотипных документов, он активно применяется во многих сферах, в том числе и в документообороте (например для счетов фактур, больничных листов, опросных листов и других однотипных форм). В качестве примера такого решения можно назвать ABBYY FlexiCapture.

Во-вторых, обработка текста документа на основе простых зависимостей и регулярных выражений. Вариант работает с документом как с текстом, алгоритмы пытаются извлечь необходимые данные на основе всевозможных зависимостей: наличие ключевых слов, порядок строк и слов, регулярные выражения (поиск строк определенной длины с определенным набором символов).  Например, может использоваться поиск дат, ИНН, e-mail. Подобные решения отличаются своей простотой, как правило разрабатываются организациями для внутренних нужд и не тиражируются.

И наконец, семантический анализ текста документа. Это самый интересный и одновременно самый сложный в реализации вариант. Он предполагает полный семантический разбор текста документа и построение смыслового дерева. Алгоритмы буквально понимают «о чем идёт речь», они умеют выделять из текста ключевые онтологии и факты. Когда говорят об интеллектуальной обработке текстов, как правило, подразумевают именно этот подход. В качестве ориентира можно назвать ABBYY Compreno.

Однако у решений такого класса есть ряд важных недостатков, затрудняющий их активное применение в корпоративных системах:

●    Низкая готовность. Подобные решения требуется дорабатывать под каждого заказчика, что сказывается на стоимости проекта и времени его реализации.

●    Высокая стоимость владения. Используемые алгоритмы крайне ресурсоёмки, для их работы требуются мощные выделенные сервера.

●    Высокая вычислительная сложность алгоритмов – обработка стандартного документа может занять несколько минут. Поэтому у сценариев применения есть важное ограничение в виде необходимости асинхронного выполнения. Другими словами, не получится применить технологию для работы с пользователем в режиме реального времени (загрузил документ – увидел результат).

●    Входящие документы, в большинстве случаев, приходят в бумажном виде. Поэтому понадобится дополнительно приобретать дорогостоящее решение по преобразованию скан-образов в машиночитаемый текст.

 

В конечном итоге цена вопроса такой интеллектуальной автоматизации может значительно превысить существующие издержки на ручную и частично автоматизированную обработку документопотока, что ставит под вопрос рентабельность технологии для бизнеса. Поэтому большинство организаций останавливаются на первых двух вариантах. Примеров реальных проектов на основе семантического анализа текстов документов пока не так много, однако по мере развития технологий недостатки должны нивелироваться, а решения – становиться доступнее и привлекательнее.

Источник: Журнал "Современные технологии делопроизводства и документооборота" №4, 2016

Ещё материалы автора
Похожие записи
Комментарии (0)
Сейчас обсуждают
Вадим Майшев 16 января 2017 г. 11:27  

Не особо авторы/журналисты утруждают себя использовать правильные термины: тут и "стоимость ЭЦП" - ЭЦП уж 5 лет по закону нет, да и ЭЦП "не продается" (УЦ продают сертификаты).

Никто еще не видел в природе живьем простую электронную подпись, а будто бы только она "устраняет ограничения на использование документов, выдаваемых органами и организациями в электронной форме" :-)

А проблема в том, что граждане вынуждены оформлять дорогостоящую электронно-цифровую подпись, чтобы обжаловать постановления в электронном виде.

Кто решил, что она дорогостоящая? В сравнении с чем? В государстве нет ничего бесплатного! Давно были у нотариуса/врача/... или оплачивали пошлины за "услуги" государства, живущего на деньги налогоплательщиков? И никто (пока) не запрещает использовать неэлектронные варианты взаимодействия!

Александр Валеев 16 января 2017 г. 08:22  
«Большинство услуг и сервисов на портале требуют только простой электронной подписи, однако некоторые услуги, действительно, нужно подписывать квалифицированной электронной подписью. На сегодняшний день это необходимая технология, и она продолжит действовать», — заявил замглавы Минкомсвязи России Алексей Козырев. На сайте Минкомсвязи приведен весь список госуслуг, для которых нужна ЭЦП (XLSX,  187,5 КБ).

Многие опубликовали новость о госуслугах. Но о том, понадобится ли еще КЭП, только здесь. Спасибо

Больше комментариев