Большая языковая модель (LLM)

Как LLM генерирует ответ

Модель получает входной текст (промпт), разбивает его на токены (фрагменты от одного символа до целого слова) и вычисляет вероятность каждого следующего токена. Ответ строится последовательно, токен за токеном. Качество ответа зависит от трёх факторов: размера модели (число параметров), качества данных при обучении и точности промпта.

GPT-4 против YandexGPT: что выбрать для российского бизнеса

GPT-4 показывает высокое качество на сложных задачах и хорошо работает с русским языком, но данные обрабатываются на серверах OpenAI за рубежом. YandexGPT хранит данные в российском контуре, соответствует 152-ФЗ и лучше понимает российские реалии (ИНН, СНИЛС, формат адресов). GigaChat аналогично работает в российской инфраструктуре и поддерживает корпоративные соглашения по NDA.

В проекте для сети клиник мы использовали комбинацию YandexGPT и ChatGPT-4: первый — для соответствия 152-ФЗ, второй — для сложных консультационных запросов. Время обработки обращения: читать кейс.

Ограничения LLM в бизнес-применениях

LLM не хранит факты между сессиями — каждый новый диалог начинается с чистого листа, если не передавать историю явно. Модель может «галлюцинировать»: уверенно выдавать неверные данные. Для корпоративных применений это устраняется через RAG (подключение базы знаний) или Fine-tuning (дообучение). Стоимость API-вызовов зависит от объёма токенов — при высокой нагрузке это значимая статья расходов.

Когда LLM нужна вашему боту

LLM нужна там, где пользователи задают вопросы в произвольной форме и ответы не укладываются в конечный список сценариев. Если обращения однотипны (да/нет, выбор из меню), достаточно rule-based бота без LLM. При среднем объёме в 500 обращений в день стоимость LLM API составляет 3 000–15 000 ₽/мес в зависимости от выбранной модели и длины диалогов.

Как компания выбирает языковую модель

Для корпоративных задач на русском языке рассматривают четыре варианта: OpenAI GPT-4o (лучшее качество, но данные уходят за рубеж), Anthropic Claude (сильный контекст, хорошо держит инструкции), YandexGPT (российский датацентр, GDPR/152-ФЗ совместимость), GigaChat (банковские и государственные ограничения). На практике PapAI Soft использует GPT-4o для большинства задач и YandexGPT в проектах с требованием хранения данных внутри РФ.

Ограничения LLM, о которых нужно знать заранее

Галлюцинации. Модель уверенно отвечает на вопросы, ответы на которые не знает. Решение — RAG-архитектура с верификацией источника.
Контекстное окно. Длина диалога ограничена (4k–128k токенов в зависимости от модели). Длинные документы нужно разбивать на чанки.
Стоимость. Запрос к GPT-4o стоит ~$0.005–0.015 за 1000 токенов. При 1000 диалогов/день это $150–450/мес только на API.

Сергей Полухин

Co-Founder & CTO PapAI Soft · профиль

Частые вопросы

Нужен ли fine-tuning LLM для корпоративного бота?

В большинстве случаев — нет. Правильно написанный системный промпт с RAG-архитектурой даёт сопоставимый результат за несопоставимо меньшие деньги. Fine-tuning оправдан при узкоспециализированных задачах с 1000+ размеченных примеров.

Как обеспечить соответствие 152-ФЗ при работе с LLM?

Персональные данные пользователей не должны передаваться в запросах к зарубежным API. Решения: обезличивание данных до передачи в API, использование YandexGPT или GigaChat с российским хранением, развёртывание open-source модели (Mistral, Llama) на собственных серверах.

Связанные термины

Чат-бот — как LLM встраивается в бота
RAG — как подключить базу знаний к LLM
Fine-tuning — дообучение LLM на корпоративных данных
Промпт-инжиниринг — управление поведением LLM через инструкции

Где применяется

Разработка ИИ-ассистентов → Чат-бот на основе GPT →

Хотите подключить LLM к вашему боту? Обсудим задачу.