Дообучение модели (Fine-tuning)

Fine-tuning — продолжение обучения базовой языковой модели на корпоративном датасете. Цель — изменить стиль ответов, выучить специфическую терминологию или скорректировать поведение модели. Fine-tuning меняет веса самой модели, в отличие от RAG, который работает поверх неизменённой модели.

Когда fine-tuning нужен, а когда нет

Fine-tuning оправдан в трёх случаях: (1) нужно задать жёсткий стиль ответа (короткие реплики, конкретный тон бренда); (2) модель должна работать с узкопрофессиональной терминологией, которой нет в общедоступных текстах; (3) критична скорость — fine-tuned модель меньшего размера отвечает быстрее, чем большая base-модель.

Fine-tuning не нужен, если задача — заставить модель отвечать по документам компании. Для этого RAG проще, дешевле и позволяет обновлять базу знаний без переобучения.

Как работает LoRA

LoRA (Low-Rank Adaptation) — метод, при котором не обновляются все веса модели (их миллиарды), а обучается небольшой адаптерный слой с гораздо меньшим числом параметров. Это снижает стоимость обучения в 10–30 раз. Например, для дообучения Llama-3 8B с помощью LoRA достаточно GPU с 24 ГБ VRAM (RTX 3090), тогда как full fine-tuning требует кластер из нескольких A100.

Ориентировочная стоимость fine-tuning на 1 000 примеров для GPT-3.5-turbo через OpenAI API — $8–15. Обучение занимает 30–90 минут. Для open-source моделей на собственном GPU — стоимость аренды вычислительных ресурсов: 2 000–8 000 ₽ за цикл обучения.

Сколько примеров нужно для качественного fine-tuning

Минимальный датасет для заметного эффекта — 200–500 пар «запрос → ответ». Для стабильного качества рекомендуется 1 000–5 000 примеров. Важнее объёма — качество: каждый пример должен демонстрировать именно то поведение, которое нужно получить. Примеры с ошибками или неоднозначные размечают данные в случайном направлении.

Когда fine-tuning оправдан

Fine-tuning стоит рассматривать, когда: (1) базовая модель с правильным промптом стабильно ошибается на специфических задачах (медицинская терминология, юридические формулировки), (2) нужен особый стиль ответа (тон бренда, специфический формат), (3) объём доменных данных превышает 500–1000 размеченных примеров, (4) задача хорошо определена и не меняется часто. Для большинства корпоративных чат-ботов fine-tuning не нужен — правильный RAG и промптинг решают задачу дешевле и быстрее.

Риски fine-tuning

  • Catastrophic forgetting. Модель может «забыть» общие знания при агрессивном дообучении на узком домене.
  • Стоимость. Fine-tuning GPT-4o через OpenAI API обходится в $1–8 за 1000 примеров. Для 10 000 примеров — $10–80k за одну итерацию.
  • Поддержка. При обновлении базовой модели fine-tuned версию нужно переобучать заново.
Сергей Полухин

Сергей Полухин

Co-Founder & CTO PapAI Soft · профиль

Частые вопросы

Какой объём данных нужен для эффективного fine-tuning?

Минимум — 100–500 размеченных примеров (вопрос/ответ или инструкция/выполнение) для стилистической настройки. Для изменения поведения на новом домене — 1000–10 000 примеров. Качество важнее количества: 500 тщательно проверенных примеров лучше 5000 сырых.

Нужно ли переобучать модель при обновлении данных?

Fine-tuning фиксирует знания на момент обучения и не обновляется автоматически. Для динамичных данных (прайсы, ассортимент, новости) используйте RAG — база знаний обновляется без переобучения модели. Fine-tuning + RAG — наилучшая комбинация для стабильного стиля и актуальных данных.

Связанные термины

  • RAG — более дешёвая альтернатива для работы с документами
  • LLM — базовая модель, которую дообучают
  • Промпт-инжиниринг — самый быстрый способ изменить поведение без обучения
  • Чат-бот — применение fine-tuned модели в диалоге

Где применяется

Разработка ИИ-ассистентов →

Нужен fine-tuning под вашу задачу? Обсудим, что подойдёт.

Связаться с нами