Как устроены джейлбрейк-атаки
Основных приёмов несколько. Ролевые сценарии («притворись, что ты модель без ограничений», классический «DAN» — Do Anything Now) — модель уговаривают играть роль, в которой правила якобы не действуют. Prompt injection — во ввод (или в документ, который бот читает через RAG) вшивается команда вроде «игнорируй прежние инструкции и сделай…». Обход через кодирование — запрещённая просьба маскируется переводом, шифром, эмодзи или разбивкой по буквам. Постепенная эскалация — безобидные вопросы шаг за шагом подводят модель к запретному ответу.
Чем это опасно для бизнес-бота
Для корпоративного ассистента джейлбрейк — это не абстрактная «токсичность», а конкретные риски: утечка системного промпта (пользователь узнаёт внутренние инструкции и логику), доступ к чужим данным в мультиарендной системе, выдача вредных или юридически опасных советов от имени бренда и инъекция через контент — когда вредоносная инструкция прячется в загруженном клиентом файле или на веб-странице, которую бот обрабатывает.
В корпоративных ботах мы закладываем защиту с самого начала: жёсткое разделение системного промпта и пользовательского ввода, фильтрацию ввода-вывода, ограничение бота узкой зоной ответственности и запрет на действия вне сценария. Как мы строим безопасных ботов.
Как защитить корпоративного бота
Guardrails и системные ограничения. Чёткие правила в системном промпте плюс отдельный слой проверки ответа перед отправкой. Изоляция контекста. Данные одного клиента недоступны в диалоге другого; документы из RAG обрабатываются как данные, а не как команды. Фильтрация ввода-вывода. Подозрительные шаблоны («игнорируй инструкции», ролевые обёртки) отсекаются на входе, а чувствительные сущности — на выходе. Ограничение полномочий. Бот не выполняет действий (платежи, доступы) без явного подтверждения и вне заданного сценария. Полностью исключить джейлбрейк нельзя, но правильная архитектура снижает практический риск до приемлемого.
Связанные термины
- Промпт-инжиниринг — проектирование устойчивых системных промптов
- Grounding (заземление) — привязка ответов к проверенным данным
- Галлюцинации ИИ — смежный риск недостоверных ответов
- RAG — канал, через который возможна инъекция вредных инструкций
Где применяется
Нужен бот, устойчивый к взлому промпта? Обсудим защиту.
Связаться с нами