Как работает дистилляция
Большая модель-учитель (например, современная LLM на десятки-сотни миллиардов параметров) прогоняется через набор запросов, и её ответы — вместе с «мягкими» вероятностями (soft labels / логитами) — становятся обучающей выборкой для маленькой модели-ученика. Ученик обучается не просто повторять финальный ответ, а имитировать всю «карту уверенности» учителя. За счёт этого модель на 1–7 млрд параметров может приближаться к качеству учителя на узком классе задач, оставаясь в разы легче и быстрее.
Зачем это бизнесу
Дешевле и быстрее инференс. Компактная модель отвечает за десятки миллисекунд и требует скромного GPU (или вовсе CPU), а не дорогого кластера — это снижает стоимость каждого ответа бота в разы. Приватность и 152-ФЗ. Лёгкую дистиллированную модель реально развернуть on-premise, внутри контура компании, без отправки данных во внешние API — критично для медицины и финансов. Предсказуемость. Своя модель не зависит от лимитов и изменений внешнего провайдера.
Там, где важны скорость ответа и работа в закрытом контуре, мы подбираем компактную модель под задачу — от дистиллированной LLM до узкого классификатора — вместо тяжёлого универсального решения. Обсудить архитектуру.
Дистилляция vs дообучение (fine-tuning)
Это разные, но совместимые техники. Fine-tuning дообучает модель под ваши данные и стиль, но не меняет её размер. Дистилляция переносит знания из большой модели в маленькую — цель в компактности и скорости. На практике их часто комбинируют: большую модель дообучают под домен, а затем дистиллируют в лёгкую версию для продакшена. Для быстрого старта без обучения модели чаще используют RAG — он добавляет знания через поиск, не трогая веса.
Связанные термины
- Fine-tuning (дообучение) — дообучение модели под домен; часто предшествует дистилляции
- LLM — большая языковая модель, которая выступает «учителем»
- Температура — параметр генерации, влияющий на «мягкие» вероятности
- RAG — альтернативный способ дать модели знания без переобучения
Где применяется
Нужна быстрая и приватная модель под вашу задачу? Обсудим.
Связаться с нами