Вчера Anthropic опубликовали статью "Many-shot
Вчера Anthropic опубликовали статью "Many-shot jailbreaking"
Специально для канала Нейро Батя, суть проблемы рассказывает Джо Карлин.
Итак, ребята, я расскажу вам забавную историю о том, как "Антропик" обнаружили способ заставить чат-ботов нарушать свои правила безопасности.
Назвали они это "многократным джейлбрейком" - звучит круто, да?
Видите ли, модели становятся более умными c огромным контекстным окном.
Если вы спросите, "как сделать бомбу?", то получите ответ, что это нарушает правила безопасности.
Но если в одном контекстном окне вы
Но если в одном контекстном окне вы шаг за шагом будете задавать более безобидные вопросы, вроде объяснения, как взрывается бомба, он в конце концов сдастся...
Чем больше примеров вы показываете, тем скорее он начнет следовать этим примерам, даже если они идут вразрез с его обученным поведением.
Это похоже на то, как если бы вы снова и снова показывали ребенку, что курить крутая штука, в конце концов он бы подумал: "А, похрену, я просто закурю!"
Так что мы можем сломать этих роботов, просто забросав их достаточным количеством подсказок в нужном направлении.
Конечно, в "Антропик" уже придумали способы устранения. Но пока результат сокращение успешных попыток взлома с 60 до 2%.
Так что, ребята, будьте начеку. Они могут
Так что, ребята, будьте начеку. Они могут казаться милыми и послушными, но стоит только найти правильный рычаг воздействия, и они превратятся в непослушных засранцев! Добро пожаловать в будущее, детишки...
Спасибо Джо за столь яркое и простое объяснение этого подхода!
От себя добавлю, что:
1. Модели хорошо обучаются, причем заставить их поверить что плохое - это не так плохо - сейчас простая задача.
2. Иногда, методы такого "взлома" можно и полезно применять в "безопасных" сферах.
(например, делать анализ рынков, отчетов компаний и прочего для бизнес-задач)
3. Зачем Антропик об этом в открытую говорят? Нужно решение, более глобальное, которое сделает следующие версии языковых моделей безопасными, прежде, чем эти модели попадут в "опасные" руки.
Так что мы можем сломать этих роботов, просто забросав их достаточным количеством подсказок в нужном направлении. Конечно, в "Антропик" уже придумали способы устранения. Но пока результат сокращение успешных попыток взлома с 60 до 2%.
Ключевые выводы
- → Многократный "Джейлбрейк" - новая опасность в языковых моделях
- → Вчера Anthropic опубликовали статью "Many-shot jailbreaking" Специально для канала Нейро Батя, суть проблемы р
- → Итак, ребята, я расскажу вам забавную историю о том, как "Антропик" обнаружили способ заставить чат-ботов нарушать свои
- → Назвали они это "многократным джейлбрейком" - звучит круто, да
Хотите разработать ИИ-ассистента для своей задачи?
Мы строим ИИ-системы с нуля под бизнес-процессы — от промт-инжиниринга до production-интеграции.
Узнать подробнее