Наверх

Учить, учить и еще раз учить ИИ

Время чтения: 5 минут
0
Учить, учить и еще раз учить ИИ

Большие языковые модели (LLM) открывают новые возможности, но как адаптировать их под конкретные задачи? Как научить ИИ понимать специфику вашего бизнеса, не вкладывая миллионы в разработку собственной модели? Дообучить существующую! В статье разберем, что такое дообучение LLM и можно ли самостоятельно вложить «знания» в нейросети.

Начнем с базы!

Большие языковые модели (LLM) — это глубокие нейронные сети, способные обрабатывать естественный язык благодаря обучению на огромных объемах текста. Они могут понимать контекст, генерировать осмысленные ответы и обрабатывать естественный язык.

Дообучение LLM — тонкая настройка предварительно обученных больших языковых моделей для их адаптации к определенным знаниям или особенностям. В отличие от создания с нуля, дообучение помогает повысить точность и эффективность моделей в конкретных задачах. А ресурсов и времени требует гораздо меньше.

Вы могли слышать о проприетарных (GPT, GigaChat, YandexGPT) и открытых LLM-моделях (DeepSeek, Llama, Qwen и пр.). Открытые модели часто используют для дообучения под специфические задачи. Например, кейс с моделью A-Vibe от Авито: в компании дополнительно обучают открытые модели для своих продуктов.

Существует два основных подхода к дообучению LLM:

  1. Fine-tuning — полная настройка всех слоев предварительно обученной модели на специализированных датасетах. С таким подходом вы «заточите» модель под конкретную задачу, но вам потребуется больше данных и вычислительных ресурсов (примерно в 3-4 раза по сравнению с затратами на «простое» выполнение задач).
  2. Prompt-based learning — подход, при котором поведение модели задается с помощью промт-инжиниринга без изменения архитектуры. Здесь требуется меньше ресурсов, поскольку модель остается неизменной, а обучение сводится к подбору эффективных инструкций. Но и дообучением это назвать сложно, так как мы не наполняем LLM новыми знаниями о мире или о нужной нам теме.

Плюсы и минусы каждого подхода

Подход Преимущества Недостатки
Fine-tuning
  • высокая степень адаптации к специализированному домену или задаче;
  • хорошие показатели точности и качества решений.

большое количество вычислений и памяти — большие затраты на инфраструктуру;

предварительно потребуется внутренняя экспертиза ценности всей базы для дообучения;

высокие риски переобучения, особенно при работе с небольшими датасетам — модель может начать работать хуже, чем было до.

Prompt-based learning
  • низкая стоимость реализации и минимальные требования к ресурсам;
  • легкость интеграции с моделями;
  • минимальное влияние на производительность системы.

ограниченная глубина адаптации, поскольку архитектура модели остаётся неизменной;

возможны проблемы с устойчивостью результатов в зависимости от выбора промтов.

Бытует мнение, и многие мои коллеги отмечают, что для качественного дообучения большой языковой модели требуется примерно 10% объема уже имеющейся обучающей выборки. То есть, чтобы получить рост по качеству после дообучения модели примерно на 7 млрд параметров, нужно ей «скормить» около 10Тб данных. Опять же вспомним упомянутых коллег из Авито: они как раз для этих целей примерно такой объем информации и использовали. Но, конечно, все сильно зависит от размера исходной модели и характера задачи.

Вы, наверно, где-то слышали еще про «предварительное обучение» (Pretraining). Это начальная фаза тренировки нейронной сети, направленная на создание универсальной модели, способной эффективно обобщать знания из широкого спектра данных. Цель pretraining заключается в извлечении общих закономерностей и характеристик из огромного количества несвязанных данных, что помогает сформировать базовые представления, полезные для последующего применения в различных задачах.

Всем подходам подход

Один из наиболее перспективных направлений решения задач с добавлением в LLM текстовых данных — метод Retrieval Augmented Generation (RAG). То есть, генерация с дополнительным контекстом.

Этот альтернативный подход объединяет LLM с системой извлечения информации из внешних баз данных или документов. Получается, RAG сочетает сильные стороны двух методов: способность нейросети генерировать связный и осмысленный контент и возможность оперативного обращения к актуальным источникам (внутренним или внешним) для повышения точности и полноты предоставляемых ответов.

В чем преимущества RAG:

  • можно быстро обновлять знания модели, просто добавляя свежие данные, без полного переобучения;
  • сохраняется высокий уровень производительности даже при увеличении объемов обрабатываемой информации;
  • можно гибко управлять качеством ответа через фильтрацию извлекаемых данных.

Таким образом, с RAG можно достигать сопоставимые или лучшие результаты при меньших затратах вычислительных ресурсов.

И что в итоге?

Проанализировав все вышесказанное, приходим к выводу, что традиционный подход fine-tuning не всегда оправдан финансово и технически. Часто оптимальным решением специфических задач для LLM будет являться метод RAG, который дает высокое качество решений и одновременно требует меньшего количества ресурсов.

Но не стоит также забывать, что для отдельных узких областей могут оказаться полезными маленькие языковые модели (SML), специально созданные, обученные и настроенные под конкретные задачи.

Чтобы прочитать эту статью до конца,
или зарегистрируйтесь

Комментарии 0

Чтобы прокомментировать, или зарегистрируйтесь