Блог PapAI Soft · Технологии

Многократный "Джейлбрейк" - новая опасность в языковых моделях?

Многократный "Джейлбрейк" - новая опасность в языковых моделях?

Юрий Бутенков·03.05.2024·2 мин. чтения

Вчера Anthropic опубликовали статью "Many-shot

Вчера Anthropic опубликовали статью "Many-shot jailbreaking"
Специально для канала Нейро Батя, суть проблемы рассказывает Джо Карлин.

Итак, ребята, я расскажу вам забавную историю о том, как "Антропик" обнаружили способ заставить чат-ботов нарушать свои правила безопасности.

Назвали они это "многократным джейлбрейком" - звучит круто, да?

Видите ли, модели становятся более умными c огромным контекстным окном.
Если вы спросите, "как сделать бомбу?", то получите ответ, что это нарушает правила безопасности.

Но если в одном контекстном окне вы

Но если в одном контекстном окне вы шаг за шагом будете задавать более безобидные вопросы, вроде объяснения, как взрывается бомба, он в конце концов сдастся...

Чем больше примеров вы показываете, тем скорее он начнет следовать этим примерам, даже если они идут вразрез с его обученным поведением.

Это похоже на то, как если бы вы снова и снова показывали ребенку, что курить крутая штука, в конце концов он бы подумал: "А, похрену, я просто закурю!"

Так что мы можем сломать этих роботов, просто забросав их достаточным количеством подсказок в нужном направлении.
Конечно, в "Антропик" уже придумали способы устранения. Но пока результат сокращение успешных попыток взлома с 60 до 2%.

Так что, ребята, будьте начеку. Они могут

Так что, ребята, будьте начеку. Они могут казаться милыми и послушными, но стоит только найти правильный рычаг воздействия, и они превратятся в непослушных засранцев! Добро пожаловать в будущее, детишки...

Спасибо Джо за столь яркое и простое объяснение этого подхода!

От себя добавлю, что:
1. Модели хорошо обучаются, причем заставить их поверить что плохое - это не так плохо - сейчас простая задача.
2. Иногда, методы такого "взлома" можно и полезно применять в "безопасных" сферах.
(например, делать анализ рынков, отчетов компаний и прочего для бизнес-задач)
3. Зачем Антропик об этом в открытую говорят? Нужно решение, более глобальное, которое сделает следующие версии языковых моделей безопасными, прежде, чем эти модели попадут в "опасные" руки.

Так что мы можем сломать этих роботов, просто забросав их достаточным количеством подсказок в нужном направлении. Конечно, в "Антропик" уже придумали способы устранения. Но пока результат сокращение успешных попыток взлома с 60 до 2%.

Ключевые выводы

  • → Многократный "Джейлбрейк" - новая опасность в языковых моделях
  • → Вчера Anthropic опубликовали статью "Many-shot jailbreaking" Специально для канала Нейро Батя, суть проблемы р
  • → Итак, ребята, я расскажу вам забавную историю о том, как "Антропик" обнаружили способ заставить чат-ботов нарушать свои
  • → Назвали они это "многократным джейлбрейком" - звучит круто, да

Хотите разработать ИИ-ассистента для своей задачи?

Мы строим ИИ-системы с нуля под бизнес-процессы — от промт-инжиниринга до production-интеграции.

Узнать подробнее