Как LLM генерирует ответ
Модель получает входной текст (промпт), разбивает его на токены (фрагменты от одного символа до целого слова) и вычисляет вероятность каждого следующего токена. Ответ строится последовательно, токен за токеном. Качество ответа зависит от трёх факторов: размера модели (число параметров), качества данных при обучении и точности промпта.
GPT-4 против YandexGPT: что выбрать для российского бизнеса
GPT-4 показывает высокое качество на сложных задачах и хорошо работает с русским языком, но данные обрабатываются на серверах OpenAI за рубежом. YandexGPT хранит данные в российском контуре, соответствует 152-ФЗ и лучше понимает российские реалии (ИНН, СНИЛС, формат адресов). GigaChat аналогично работает в российской инфраструктуре и поддерживает корпоративные соглашения по NDA.
В проекте для сети клиник мы использовали комбинацию YandexGPT и ChatGPT-4: первый — для соответствия 152-ФЗ, второй — для сложных консультационных запросов. Время обработки обращения: читать кейс.
Ограничения LLM в бизнес-применениях
LLM не хранит факты между сессиями — каждый новый диалог начинается с чистого листа, если не передавать историю явно. Модель может «галлюцинировать»: уверенно выдавать неверные данные. Для корпоративных применений это устраняется через RAG (подключение базы знаний) или Fine-tuning (дообучение). Стоимость API-вызовов зависит от объёма токенов — при высокой нагрузке это значимая статья расходов.
Когда LLM нужна вашему боту
LLM нужна там, где пользователи задают вопросы в произвольной форме и ответы не укладываются в конечный список сценариев. Если обращения однотипны (да/нет, выбор из меню), достаточно rule-based бота без LLM. При среднем объёме в 500 обращений в день стоимость LLM API составляет 3 000–15 000 ₽/мес в зависимости от выбранной модели и длины диалогов.
Как компания выбирает языковую модель
Для корпоративных задач на русском языке рассматривают четыре варианта: OpenAI GPT-4o (лучшее качество, но данные уходят за рубеж), Anthropic Claude (сильный контекст, хорошо держит инструкции), YandexGPT (российский датацентр, GDPR/152-ФЗ совместимость), GigaChat (банковские и государственные ограничения). На практике PapAI Soft использует GPT-4o для большинства задач и YandexGPT в проектах с требованием хранения данных внутри РФ.
Ограничения LLM, о которых нужно знать заранее
- Галлюцинации. Модель уверенно отвечает на вопросы, ответы на которые не знает. Решение — RAG-архитектура с верификацией источника.
- Контекстное окно. Длина диалога ограничена (4k–128k токенов в зависимости от модели). Длинные документы нужно разбивать на чанки.
- Стоимость. Запрос к GPT-4o стоит ~$0.005–0.015 за 1000 токенов. При 1000 диалогов/день это $150–450/мес только на API.
Сергей Полухин
Co-Founder & CTO PapAI Soft · профиль
Частые вопросы
Нужен ли fine-tuning LLM для корпоративного бота?
В большинстве случаев — нет. Правильно написанный системный промпт с RAG-архитектурой даёт сопоставимый результат за несопоставимо меньшие деньги. Fine-tuning оправдан при узкоспециализированных задачах с 1000+ размеченных примеров.
Как обеспечить соответствие 152-ФЗ при работе с LLM?
Персональные данные пользователей не должны передаваться в запросах к зарубежным API. Решения: обезличивание данных до передачи в API, использование YandexGPT или GigaChat с российским хранением, развёртывание open-source модели (Mistral, Llama) на собственных серверах.
Связанные термины
- Чат-бот — как LLM встраивается в бота
- RAG — как подключить базу знаний к LLM
- Fine-tuning — дообучение LLM на корпоративных данных
- Промпт-инжиниринг — управление поведением LLM через инструкции
Где применяется
Хотите подключить LLM к вашему боту? Обсудим задачу.
Связаться с нами