Наверх

Плох тот искусственный интеллект, который не умеет самообучаться

Время чтения: 8 минут
0
Плох тот искусственный интеллект, который не умеет самообучаться

Допустим, вы внедрили интеллектуальную систему управления документами и процессами, обучили ее распознавать первичные учетные документы и извлекать из них номера, даты, наименования организаций-поставщиков и другие важные реквизиты. Но в определенный момент вам захотелось большего. Например, повысить точность извлечения фактов или научить систему классифицировать новые формы документов. На выручку приходит механизм самообучения (или дообучения).

Я не волшебник. Я только учусь… на новых фактах

Способность к самообучению — ключевая и неотъемлемая характеристика систем с искусственным интеллектом (ИИ). Это подтверждает дорожная карта развития нейротехнологий и искусственного интеллекта, в которой говорится, что ИИ — это комплекс технологических решений, имитирующий когнитивные функции человека и позволяющий при выполнении задач достигать результаты, как минимум, сопоставимые с результатами интеллектуальной деятельности человека.

Не все интеллектуальные системы по управлению контентом обладают способностью самообучаться. Но если разработчик предусмотрел такую возможность, клиент может постоянно улучшать качество извлечения информации из документов, не прибегая к помощи программистов.

Рассмотрим на примере системы Directum RX Intelligence, что такое фоновое дообучение, и как оно работает.

Как научить искусственный интеллект классифицировать новые формы документов

В процессе жизнедеятельности компания заключает новые контракты с партнерами и поставщиками. Как следствие, появляются новые формы документов, которые искусственный интеллект может не распознавать или распознавать некорректно. Сервис классификации просто «не знаком» с новой формой, поэтому и не может определить тип. В таких случаях верификатор вручную меняет тип документа в карточке и заполняет пустые поля.

Процесс дообучения классификатора

Чтобы ИИ умел работать с новыми формами, нужно время от времени запускать дообучение классификатора. В системе Directum RX Intelligence это делается вручную или автоматически.

Ручное дообучение занимает более продолжительное время, так как администратору требуется выполнить целый ряд действий:

  • подготовить выборку документов,
  • инициировать обучение,
  • проанализировать результаты,
  • протестировать новую модель и перенести ее в продуктивную систему.

Автоматическое дообучение происходит без участия человека и включает в себя множество этапов и подэтапов. Не углубляясь в технические тонкости, опишем только самые основные моменты.

При обработке каждого неклассифицированного документа верификатор вручную меняет в карточке системы его тип на нужный и «ставит в очередь» на обучение. Важно, чтобы накопилась достаточная подборка документов новой формы одного класса. Тогда дообучение пройдет успешно.

Для отобранных документов готовится CSV-файл. На его основании проходит дообучение классификатора. Весь процесс протекает в фоновом режиме и не заметен для пользователя. Результат дообучения сравнивается с эталонным значением. Если он больше или равен эталону, то в классификатор публикуется новая, дополненная модель; если меньше — новая модель не публикуется, действующей остается предыдущая. Если результаты дообучения не удовлетворили администратора (и такое бывает), он может отменить их.

В Directum RX Intelligence процесс фонового дообучения классификатора может запускаться по расписанию. Например, один раз в неделю по субботам, чтобы не влиять на производительность системы и не мешать работе пользователей.

Преимущества фонового дообучения

Эффект фонового дообучения становится заметен достаточно быстро. Система начинает безошибочно классифицировать документы специфических форм, которые присылают контрагенты и которые еще недавно верификатор определял вручную. Со временем человек всё меньше и меньше отвлекается на механическую работу, а администратор подключается к процессу в самом конце, чтобы только оценить результат.

Ручное дообучение на новых видах документов

Нередко встречается кейс, когда помимо «коробочных» видов документов в организации необходимо классифицировать и извлекать реквизиты из новых видов, например, претензий или платежных поручений. В этом случае сервисы классификации также можно дообучить определять новый класс документа. Делается это вручную — в классификатор добавляется новый класс.

Для такого дообучения готовится подборка документов нужного класса. В идеале их должно быть не менее 100 штук, так как чем больше количество, тем выше будет точность классификации. Документы размещаются администратором в сетевой или локальной папке с названием класса. С помощью запроса из специальной коллекции, которая предоставляется вендором, запускается дообучение классификатора. После завершения процесса администратору необходимо проверить результат дообучения — f1-меру, которая показывает качество новой модели классификации (чем она выше, тем лучше результат) и проверить, как новая модель предсказывает вид документов, которых не было в обучающей выборке.

Дообучение моделей извлечения фактов

Если вы хотите обучить искусственный интеллект извлекать из документов новые факты, приготовьтесь к тому, что придется подобрать большую выборку. Что касается формализованных документов (счетов-фактур, актов, товарных накладных), зачастую в интеллектуальных системах уже есть готовые модели.

Дообучение моделей извлечения фактов актуально, если:

  • необходимо извлекать из документов новые реквизиты;
  • требуется извлекать существующие факты из документов того же класса, но на другом языке;
  • важно повысить точность и полноту извлечения фактов, добавив к исходной выборке документов новые документы того же класса;
  • текущая модель обучена на менее чем 400 документах.

Как протекает дообучение моделей извлечения фактов

Нужно подготовить и разметить документы, на которых будет дообучаться модель. Например, в Directum RX Intelligence это можно сделать с помощью инструмента визуальной разметки данных — справится любой пользователь. Нужно выделить реквизиты, присвоить названия — «Наименование организации», «Контрагент», «Сумма контракта» и т. д.:

Разметка сохраняется, передается в модель на обучение. В результате к данным текущей модели извлечения фактов добавляются новые.

Однофактовые и многофактовые модели

Изменился подход обучения моделей извлечения фактов. Раньше модели были только многофактовыми. Для их корректного дообучения в документах каждый раз необходимо было размечать все реквизиты. С последних версий Directum RX Intelligence используются преимущественно однофактовые модели. Такая структура сокращает время на разметку документов, если необходимо извлекать из них новые реквизиты. Теперь достаточно разметить только новый факт и запустить дообучение. При этом разметка происходит по прежним правилам и рекомендациям.

Если разметка выполняется для дообучения однофактовой модели, то в подготовленных документах достаточно разметить только новые типы фактов. Если разметка выполняется для дообучения многофактовой модели, то в документе необходимо размечать все факты: текущие и новые.

***

Не все интеллектуальные системы, представленные на отечественном рынке, открыты для самостоятельного дообучения. В январе 2023 года редакция ECM-Journal провела обзор интеллектуальных возможностей российских СЭД, ECM, BPM-систем. Оказалось, что только один вендор (Directum) заявляет о наличии механизмов дообучения в составе своего флагманского продукта.

В Справке Directum RX Intelligence можно найти подробную инструкцию по дообучению классификаторов и моделей извлечения фактов. Руководствуясь ей, продвинутый пользователь или администратор заказчика сможет в любой момент времени обучить искусственный интеллект определять новые виды или формы документов и извлекать дополнительные реквизиты из них.

В статье использованы иллюстрации из к/ф «Золушка».

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 0

Чтобы прокомментировать, или зарегистрируйтесь