Джейлбрейк ИИ (Jailbreak) — обход ограничений языковой модели

Как устроены джейлбрейк-атаки

Основных приёмов несколько. Ролевые сценарии («притворись, что ты модель без ограничений», классический «DAN» — Do Anything Now) — модель уговаривают играть роль, в которой правила якобы не действуют. Prompt injection — во ввод (или в документ, который бот читает через RAG) вшивается команда вроде «игнорируй прежние инструкции и сделай…». Обход через кодирование — запрещённая просьба маскируется переводом, шифром, эмодзи или разбивкой по буквам. Постепенная эскалация — безобидные вопросы шаг за шагом подводят модель к запретному ответу.

Чем это опасно для бизнес-бота

Для корпоративного ассистента джейлбрейк — это не абстрактная «токсичность», а конкретные риски: утечка системного промпта (пользователь узнаёт внутренние инструкции и логику), доступ к чужим данным в мультиарендной системе, выдача вредных или юридически опасных советов от имени бренда и инъекция через контент — когда вредоносная инструкция прячется в загруженном клиентом файле или на веб-странице, которую бот обрабатывает.

В корпоративных ботах мы закладываем защиту с самого начала: жёсткое разделение системного промпта и пользовательского ввода, фильтрацию ввода-вывода, ограничение бота узкой зоной ответственности и запрет на действия вне сценария. Как мы строим безопасных ботов.

Как защитить корпоративного бота

Guardrails и системные ограничения. Чёткие правила в системном промпте плюс отдельный слой проверки ответа перед отправкой. Изоляция контекста. Данные одного клиента недоступны в диалоге другого; документы из RAG обрабатываются как данные, а не как команды. Фильтрация ввода-вывода. Подозрительные шаблоны («игнорируй инструкции», ролевые обёртки) отсекаются на входе, а чувствительные сущности — на выходе. Ограничение полномочий. Бот не выполняет действий (платежи, доступы) без явного подтверждения и вне заданного сценария. Полностью исключить джейлбрейк нельзя, но правильная архитектура снижает практический риск до приемлемого.

Связанные термины

Промпт-инжиниринг — проектирование устойчивых системных промптов
Grounding (заземление) — привязка ответов к проверенным данным
Галлюцинации ИИ — смежный риск недостоверных ответов
RAG — канал, через который возможна инъекция вредных инструкций

Где применяется

Разработка ИИ-ассистентов → Безопасность ИИ и данные →

Нужен бот, устойчивый к взлому промпта? Обсудим защиту.

Связаться с нами