Промпт-инжиниринг — что это и как применять

Системный промпт

Системный промпт — это скрытая инструкция, которую видит модель, но не видит пользователь. В нём задаётся роль («Ты — консультант по продажам интернет-магазина»), ограничения («Не отвечай на вопросы, не связанные с ассортиментом»), формат («Отвечай кратко, не более 3 предложений»). Изменение системного промпта — самый быстрый способ скорректировать поведение бота без технических изменений.

Few-shot промптинг

Few-shot — техника, при которой в промпт включают 3–10 примеров «вопрос → правильный ответ». Модель улавливает паттерн и воспроизводит его для новых запросов. Например, для бота, классифицирующего обращения клиентов, достаточно 5–7 примеров с метками (жалоба, запрос, комплимент), чтобы модель правильно размечала остальные.

Для бота цветочной сети 12 примеров в few-shot блоке подняли точность классификации намерения с 71% до 94% без переобучения модели. Читать кейс.

Chain-of-thought (CoT)

Chain-of-thought — техника, при которой модель просят рассуждать пошагово перед тем, как дать ответ. Фраза «думай шаг за шагом» или пример пошагового рассуждения в few-shot блоке значительно улучшает точность на задачах, требующих логики: расчёт цены, выбор из вариантов, проверка условий. На простых задачах CoT не нужен — он лишь увеличивает расход токенов.

Как промпт влияет на стоимость

Длинный системный промпт (1 500–3 000 токенов) напрямую увеличивает стоимость каждого вызова API. При 1 000 запросов в день промпт в 2 000 токенов добавляет 2 000 000 входящих токенов в сутки — при цене GPT-4 около $10 за 1 млн токенов это $20/сутки только на промпт. Кешировать промпт (Anthropic prompt caching) или использовать модель меньшего размера для фильтрации — стандартная оптимизация.

Структура эффективного системного промпта

В продакшн-системах PapAI Soft системный промпт включает: (1) Роль: кто бот и для какой компании работает; (2) Контекст: что бот знает о продуктах и услугах; (3) Ограничения: что бот не должен говорить или делать; (4) Формат ответа: длина, стиль, использование списков; (5) Эскалация: когда и как передавать диалог оператору. Средний рабочий промпт — 800–2000 токенов.

Частые ошибки в промптах

«Будь вежливым и полезным».. Размытые инструкции дают размытые ответы. Нужны конкретные правила с примерами.
Слишком длинные промпты. После 4000 токенов модель начинает «забывать» инструкции в начале.
Отсутствие примеров (few-shot). Показать модели 2–3 примера правильного ответа эффективнее, чем описывать правила словами.

Сергей Полухин

Co-Founder & CTO PapAI Soft · профиль

Частые вопросы

Сколько итераций нужно для написания рабочего промпта?

Обычно 5–15 итераций до стабильного качества. Процесс: написать черновик → протестировать на 20–50 реальных вопросах → найти провальные кейсы → исправить промпт → повторить. Первые 3 итерации убирают 80% ошибок, остальные — тонкая настройка.

Стоит ли разделять системный промпт на несколько блоков?

Да, структурированный промпт работает лучше монолитного. Рекомендуемые блоки: Role (кто бот), Context (что знает), Rules (что нельзя), Format (как отвечать), Escalation (когда передать оператору). XML-теги или Markdown-заголовки помогают модели чётче разграничивать секции.

Связанные термины

LLM — модель, которую настраивает промпт
RAG — как промпт сочетается с поиском по документам
Fine-tuning — альтернатива промпту для глубокого изменения поведения
Контекстное окно — ограничение, в которое должен уложиться промпт

Где применяется

Разработка ИИ-ассистентов → ИИ-консультант →

Хотите настроить промпты для вашего бота? Обсудим задачу.