Когда fine-tuning нужен, а когда нет
Fine-tuning оправдан в трёх случаях: (1) нужно задать жёсткий стиль ответа (короткие реплики, конкретный тон бренда); (2) модель должна работать с узкопрофессиональной терминологией, которой нет в общедоступных текстах; (3) критична скорость — fine-tuned модель меньшего размера отвечает быстрее, чем большая base-модель.
Fine-tuning не нужен, если задача — заставить модель отвечать по документам компании. Для этого RAG проще, дешевле и позволяет обновлять базу знаний без переобучения.
Как работает LoRA
LoRA (Low-Rank Adaptation) — метод, при котором не обновляются все веса модели (их миллиарды), а обучается небольшой адаптерный слой с гораздо меньшим числом параметров. Это снижает стоимость обучения в 10–30 раз. Например, для дообучения Llama-3 8B с помощью LoRA достаточно GPU с 24 ГБ VRAM (RTX 3090), тогда как full fine-tuning требует кластер из нескольких A100.
Ориентировочная стоимость fine-tuning на 1 000 примеров для GPT-3.5-turbo через OpenAI API — $8–15. Обучение занимает 30–90 минут. Для open-source моделей на собственном GPU — стоимость аренды вычислительных ресурсов: 2 000–8 000 ₽ за цикл обучения.
Сколько примеров нужно для качественного fine-tuning
Минимальный датасет для заметного эффекта — 200–500 пар «запрос → ответ». Для стабильного качества рекомендуется 1 000–5 000 примеров. Важнее объёма — качество: каждый пример должен демонстрировать именно то поведение, которое нужно получить. Примеры с ошибками или неоднозначные размечают данные в случайном направлении.
Связанные термины
- RAG — более дешёвая альтернатива для работы с документами
- LLM — базовая модель, которую дообучают
- Промпт-инжиниринг — самый быстрый способ изменить поведение без обучения
- Чат-бот — применение fine-tuned модели в диалоге
Нужен fine-tuning под вашу задачу? Обсудим, что подойдёт.
Связаться с нами