Дообучение модели (Fine-tuning)

Fine-tuning — продолжение обучения базовой языковой модели на корпоративном датасете. Цель — изменить стиль ответов, выучить специфическую терминологию или скорректировать поведение модели. Fine-tuning меняет веса самой модели, в отличие от RAG, который работает поверх неизменённой модели.

Когда fine-tuning нужен, а когда нет

Fine-tuning оправдан в трёх случаях: (1) нужно задать жёсткий стиль ответа (короткие реплики, конкретный тон бренда); (2) модель должна работать с узкопрофессиональной терминологией, которой нет в общедоступных текстах; (3) критична скорость — fine-tuned модель меньшего размера отвечает быстрее, чем большая base-модель.

Fine-tuning не нужен, если задача — заставить модель отвечать по документам компании. Для этого RAG проще, дешевле и позволяет обновлять базу знаний без переобучения.

Как работает LoRA

LoRA (Low-Rank Adaptation) — метод, при котором не обновляются все веса модели (их миллиарды), а обучается небольшой адаптерный слой с гораздо меньшим числом параметров. Это снижает стоимость обучения в 10–30 раз. Например, для дообучения Llama-3 8B с помощью LoRA достаточно GPU с 24 ГБ VRAM (RTX 3090), тогда как full fine-tuning требует кластер из нескольких A100.

Ориентировочная стоимость fine-tuning на 1 000 примеров для GPT-3.5-turbo через OpenAI API — $8–15. Обучение занимает 30–90 минут. Для open-source моделей на собственном GPU — стоимость аренды вычислительных ресурсов: 2 000–8 000 ₽ за цикл обучения.

Сколько примеров нужно для качественного fine-tuning

Минимальный датасет для заметного эффекта — 200–500 пар «запрос → ответ». Для стабильного качества рекомендуется 1 000–5 000 примеров. Важнее объёма — качество: каждый пример должен демонстрировать именно то поведение, которое нужно получить. Примеры с ошибками или неоднозначные размечают данные в случайном направлении.

Связанные термины

  • RAG — более дешёвая альтернатива для работы с документами
  • LLM — базовая модель, которую дообучают
  • Промпт-инжиниринг — самый быстрый способ изменить поведение без обучения
  • Чат-бот — применение fine-tuned модели в диалоге

Нужен fine-tuning под вашу задачу? Обсудим, что подойдёт.

Связаться с нами