Температура LLM — параметр случайности генерации

Температура LLM (Temperature)

Температура — числовой параметр генерации языковой модели (обычно 0–2), который управляет случайностью выбора следующего токена. При температуре 0 модель всегда выбирает наиболее вероятный токен — ответы детерминированы. При высокой температуре (1+) выбор более случаен — ответы разнообразнее, но менее предсказуемы.

Как работает температура технически

Перед выбором следующего токена модель вычисляет вероятности для всего словаря (десятки тысяч токенов). Температура делит логиты (необработанные оценки) на это число перед применением softmax. При температуре 0 → модель почти всегда выбирает наиболее вероятный токен. При температуре 1 → распределение вероятностей сохраняется как есть. При температуре 2 → распределение выравнивается, вероятность редких токенов возрастает.

Практические значения для бизнес-задач

0.0–0.2 — факт-чекинг, извлечение структурированных данных, SQL-генерация, NER. Нужна воспроизводимость.
0.3–0.6 — FAQ-боты, ответы по базе знаний, классификация намерений. Баланс точности и живости.
0.7–1.0 — диалоговые боты, консультации, email-рассылки. Естественная речь без монотонности.
1.0–1.5 — генерация маркетинговых текстов, брейнсторминг идей. Высокое разнообразие.

В медицинских и юридических ботах PapAI Soft мы всегда используем температуру 0.1–0.2. Точность формулировок критична — любая «творческая» вариация может изменить медицинский смысл.

Температура и другие параметры семплирования

Top-p (nucleus sampling) — дополнительный фильтр: модель выбирает из токенов, суммарная вероятность которых составляет p%. Совместное использование temperature + top_p даёт более тонкий контроль. Рекомендация практика: изменяйте один параметр за раз, фиксируя другой. Стандартные пары: (0.2, 1.0) — точность, (0.7, 0.95) — диалог, (1.0, 0.9) — генерация.

Связанные термины

LLM — языковая модель с параметром температуры
Галлюцинации ИИ — высокая температура увеличивает их вероятность
Промпт-инжиниринг — температура как часть настройки поведения модели

Где применяется

Разработка ИИ-ассистентов → Чат-бот на основе GPT →

Хотите настроить точность ответов вашего бота? Обсудим параметры.