Квантизация (Quantization) — сжатие LLM

Как работает квантизация

Внутри модели знания хранятся в виде миллиардов чисел — весов. По умолчанию каждый вес занимает 16 или 32 бита. Квантизация переводит эти числа в формат меньшей разрядности: INT8 (8 бит), INT4 (4 бита) и ниже. Память под модель сокращается кратно — 4-битная версия весит примерно вчетверо меньше 16-битной, — а матричные операции на пониженной точности выполняются быстрее.

Обычно разрядность снижают уже после обучения (post-training quantization), без переобучения модели. Расплата — небольшая потеря точности, которую на прикладных задачах чаще всего не замечают. Меньший размер и более лёгкие вычисления напрямую ускоряют инференс и снижают латентность — время до ответа бота.

Зачем это бизнесу

Дешевле и быстрее. Квантованная LLM отвечает за меньшее время и требует скромного GPU вместо дорогого кластера, что снижает стоимость каждого обращения к боту. Приватность и 152-ФЗ. Компактную модель реально развернуть on-premise, внутри контура компании, без отправки данных во внешние API — это критично для медицины и финансов, где действуют требования 152-ФЗ.

При этом важно тестировать качество: агрессивная квантизация до 4 бит и ниже иногда заметно ухудшает ответы на сложных запросах. Поэтому разрядность подбирают под конкретную задачу — где-то хватает лёгкой 4-битной модели, а где-то оставляют 8 бит ради надёжности.

Квантизация и дистилляция: в чём разница

Оба приёма делают модель дешевле в эксплуатации, но действуют по-разному. Квантизация не меняет архитектуру и число параметров — она лишь снижает точность их хранения. Дистилляция же переносит знания большой модели-учителя в принципиально меньшую модель-ученика с другим числом параметров.

На практике их комбинируют: большую модель сначала дистиллируют в компактную, а затем квантуют — так получают максимально лёгкую версию для продакшена. Оба подхода отличаются от дообучения, которое настраивает модель под ваши данные, но не уменьшает её.

Там, где важны скорость ответа и работа в закрытом контуре, мы подбираем и квантуем модель под задачу — вместо тяжёлого универсального решения; обсудить архитектуру.

Связанные термины

Дистилляция — переносит знания большой модели в компактную; часто применяется вместе с квантизацией
Инференс — этап работы модели, который квантизация делает дешевле и быстрее
Латентность — время до ответа бота, которое снижается за счёт квантизации
LLM — большая языковая модель, которую квантуют для экономичного запуска

Где применяется

Разработка ИИ-ассистентов → PapAI MedScale (on-premise) →

Нужна быстрая и приватная модель под вашу задачу? Обсудим.

Связаться с нами