Илья Петухов, Directum: Для ИИ-обработки документов компании ищут готовые решения с no/low-code

Банки и страховые компании первыми начали активно применять искусственный интеллект для автоматизации обработки кредитных документов. Госорганы используют ИИ для работы с лицензиями, заявками на субсидии, налоговыми декларациями. В компаниях умная технология обрабатывает, классифицирует и отправляет по нужному маршруту входящую корреспонденцию. Какие решения с умной технологией сейчас ищет бизнес и какие сегменты рынка все еще не оценили пользу искусственного интеллекта — рассказал в интервью журналистам руководитель проектов по развитию AI-продуктов компании Directum Илья Петухов.
Российский рынок интеллектуальной обработки документов (IDP) активно развивается, особенно в контексте импортозамещения. Какие ключевые тренды вы наблюдаете сегодня?
Рынок активно развивается, и это связано как с внутренними экономическими факторами, так и глобальными технологическими тенденциями. Растет спрос на ИИ-решения. Они были на рынке давно, и в пылу тренда на интеллектуальные технологии первой областью, к которой бизнес захотел их применить, стал документооборот. Для интеллектуальной обработки документов компании ищут готовые решения с возможностью адаптации с помощью no/low-code, а некоторые — даже разрабатывают свои.
Второй фактор — максимальная автоматизация рутинных процессов. Рутина работы с документами — основное, что компании хотят автоматизировать, чтобы экономить время и исключить человеческие ошибки.

Илья Петухов
Руководитель проектов развития AI-продуктов
Те организации, что не могут позволить себе внедрение ИИ, используют его в облаке. Многие — главным образом средний бизнес — переходят на облачные IDP-решения, чтобы сократить затраты на инфраструктуру и ее сопровождение. Здесь соотношение цена-ценность выглядит сбалансированным. Сегодня этот сегмент рынка на этапе активного роста, развития и трансформации.
Насколько зрелы российские IDP-решения? В каких аспектах они конкурентоспособны, а в каких — пока проигрывают?
Зрелость можно оценить по нескольким аспектам: технологическая база, функциональность, пользовательский опыт и интеграционные возможности. Технологиями OCR и ML сегодня никого не удивишь. Уже как само собой разумеющееся воспринимается то, что отечественные решения адаптированы под российский рынок, стандарты, язык и формы документов, функционируют в рамках действующего законодательства, имеют готовые средства интеграции к российским системам и доступны с точки зрения цены.
Но что действительно стоит обсудить, так это применение технологий глубокого обучения и продвинутых алгоритмов обработки естественного языка. Не в каждом продукте есть такие инструменты, и это может быть серьезным ограничением. Другая сложность — масштабирование на большие объемы данных или в условиях высокой нагрузки. А это один из основных запросов крупных предприятий и государственного сектора. Продукты Directum изначально разрабатывались для крупных компаний, и масштабируемость всегда была приоритетным направлением их развития. Сегодня у нас есть подтвержденные данные, что Directum RX спокойно выдерживает нагрузку в 50 тыс. одновременно работающих пользователей.
Далеко не все ИИ-решения для обработки документов можно развивать и дорабатывать самостоятельно. В основном для продуктов на отечественном рынке доступно дообучение и развитие только силами вендора, а компания-заказчик вынуждена быть от них зависимой. Чтобы упростить развитие ИИ-возможностей для своих клиентов, в последней версии Directum RX Intelligence мы добавили возможность добавлять ИИ в процесс прямо в no-code-редакторе системы.
В каких сферах наблюдается наибольший спрос на технологии интеллектуальной обработки документов? Есть ли неожиданные или нестандартные кейсы?
В первую очередь это финансовый сектор. Банки и страховые компании одними из первых начали использовать IDP для автоматизации обработки документов, связанных с кредитами: договоров, отчетов, страховых полисов. Один из популярных кейсов применения ИИ — автоматическое извлечение данных из кредитных заявок и сопутствующих документов, их анализ и принятие решения о выдаче кредита.
Государственные организации и ведомства используют ИИ для обработки документов, связанных с лицензиями, заявками на субсидии, налоговыми декларациями и другими официальными документами. Почти в любых крупных организациях применима практика подключения ИИ для обработки, классификации и маршрутизации входящих писем и запросов, поступающих в приемную. Наш недавний пример — кейс Systeme Electric, где клиент самостоятельно подключил ИИ к работе с входящими и распознаванию скан-образов.
Ритейлеры и логистические компании используют ИИ для обработки накладных, счетов-фактур и других документов, связанных с поставками и продажами. В таких кейсах эффект не заставляет себя долго ждать, можно сказать, что организация финансового архива актуальна для компании любой отрасли. К примеру, наш клиент «Татспиртпром» использует ИИ для занесения данных из сканов бумажных первичных документов.

Илья Петухов
Руководитель проектов развития AI-продуктов
Однако некоторые сегменты, такие как малый и средний бизнес, конструкторские и проектные бюро, а также некоммерческие организации, пока недооценивают потенциал этих технологий. Повышение осведомленности и доступность решений могут помочь им воспользоваться всеми преимуществами IDP.
Как текущее российское законодательство влияет на рынок IDP? Какие инициативы особенно важны для его развития?
Те, кто следит за сферой IDP, ждут утверждения законопроекта № 1173189-7 о «Цифровых дубликатах». Весной 2022 года его рассмотрение поставили на паузу, но в конце прошлого года стало известно, что процесс возобновился, и скоро закон может быть принят. Его цель — обеспечить правовые условия для создания равнозначных электронных и материальных дубликатов документов, конвертации электронных документов и их долговременного хранения. Следовательно, с принятием закона станет возможно реализовать полный цикл оцифровки архивов как раз с применением ИИ.
Какие ключевые технологии используются в современных IDP-системах? Могут ли российские решения успешно работать с неструктурированными или низкокачественными документами?
Российские решения поддерживают различные форматы и языки, могут извлекать данные из изображений и рукописного текста, а также из машинопечатных документов (сделанных на печатной машинке), они вполне способны работать с неструктурированными документами и экземплярами разного качества.
Сегодня в IDP используется целый пласт различных технологий. Это и OCR, с помощью которого текст извлекается из изображений документов — отсканированные документы преобразуются в цифровой текст. Машинное обучение (ML) применяется для того, чтобы «научить» модели обрабатывать информацию. Технологии глубокого обучения используются для распознавания текста, анализа изображений и обработки неструктурированных данных. NLP — обработка естественного языка — для «понимания» извлеченного текста. В некоторых случаях используют и компьютерное зрение — для анализа и распознавания изображений, графиков и диаграмм. В своих ИИ-решениях мы в Directum применяем технологии OCR, ML, DL, NLP, а также генеративные модели.
Насколько востребованы генеративные модели для обработки документов? Есть ли у них будущее в этой сфере?
Генеративный ИИ активно применяют для автоматического создания и редактирования документов, для переводов на другие языки. С помощью генеративных моделей создают аннотации к документам, отчеты, генерируют ответы на входящие письма. В сфере обработки документов у ГенИИ огромный потенциал за счет его бОльшей точности и более низкой ресурсоемкости. Так как большая языковая модель не требует выборки данных для обработки инструментами ML, трудозатраты на подготовку проекта стремятся к нулю. Генеративные модели требуют больше инвестиций в оборудование, но даже эти вложения окупаются быстрее, чем классический ИИ-проект со сбором обучающей базы.
Какой вы видите эволюцию рынка IDP в России в ближайшие 3-5 лет? Какие факторы будут определять его развитие?
Сейчас интеллектуальная обработка документов становится все более востребованной в корпоративном и государственном секторах. Решения для IDP будут наполняться новыми технологиями для распознавания (рукописного текста в том числе) и генерации контента. Нас ждет принятие новых законов, которые «развяжут руки» организациям, позволив им оцифровать все архивные документы.
Тренд на «цифровизацию всего» продолжится, традиционная ИИ-обработка скан-образов бумажных документов постепенно будет становиться все менее актуальной. При этом на рынке усилится роль отечественных решений, это будет связано в первую очередь со спросом в госсекторе.
Источник: tadviser.ru
Комментарии 0