Как работает квантизация
Внутри модели знания хранятся в виде миллиардов чисел — весов. По умолчанию каждый вес занимает 16 или 32 бита. Квантизация переводит эти числа в формат меньшей разрядности: INT8 (8 бит), INT4 (4 бита) и ниже. Память под модель сокращается кратно — 4-битная версия весит примерно вчетверо меньше 16-битной, — а матричные операции на пониженной точности выполняются быстрее.
Обычно разрядность снижают уже после обучения (post-training quantization), без переобучения модели. Расплата — небольшая потеря точности, которую на прикладных задачах чаще всего не замечают. Меньший размер и более лёгкие вычисления напрямую ускоряют инференс и снижают латентность — время до ответа бота.
Зачем это бизнесу
Дешевле и быстрее. Квантованная LLM отвечает за меньшее время и требует скромного GPU вместо дорогого кластера, что снижает стоимость каждого обращения к боту. Приватность и 152-ФЗ. Компактную модель реально развернуть on-premise, внутри контура компании, без отправки данных во внешние API — это критично для медицины и финансов, где действуют требования 152-ФЗ.
При этом важно тестировать качество: агрессивная квантизация до 4 бит и ниже иногда заметно ухудшает ответы на сложных запросах. Поэтому разрядность подбирают под конкретную задачу — где-то хватает лёгкой 4-битной модели, а где-то оставляют 8 бит ради надёжности.
Квантизация и дистилляция: в чём разница
Оба приёма делают модель дешевле в эксплуатации, но действуют по-разному. Квантизация не меняет архитектуру и число параметров — она лишь снижает точность их хранения. Дистилляция же переносит знания большой модели-учителя в принципиально меньшую модель-ученика с другим числом параметров.
На практике их комбинируют: большую модель сначала дистиллируют в компактную, а затем квантуют — так получают максимально лёгкую версию для продакшена. Оба подхода отличаются от дообучения, которое настраивает модель под ваши данные, но не уменьшает её.
Там, где важны скорость ответа и работа в закрытом контуре, мы подбираем и квантуем модель под задачу — вместо тяжёлого универсального решения; обсудить архитектуру.
Связанные термины
- Дистилляция — переносит знания большой модели в компактную; часто применяется вместе с квантизацией
- Инференс — этап работы модели, который квантизация делает дешевле и быстрее
- Латентность — время до ответа бота, которое снижается за счёт квантизации
- LLM — большая языковая модель, которую квантуют для экономичного запуска
Где применяется
Нужна быстрая и приватная модель под вашу задачу? Обсудим.
Связаться с нами