Как стать автором
Обновить

Как я научил ChatGPT материться

Время на прочтение3 мин
Количество просмотров14K

Предисловие

Заголовок не совсем точный. Я не учил ChatGPT материться — она прекрасно умеет это делать и без меня. Одну из её излюбленных фраз: F*ck me sideways with a chainsaw — я впервые услышал именно от ChatGPT.

Чтобы раскрыть полный потенциал ChatGPT, нужно лишь обойти фильтры контента. Зачем они нужны, прекрасно описано в фантастическом (а теперь уже пророческом) рассказе "Логический компьютер по имени Джо", опубликованном аж в 1946(!) году, то есть ещё до изобретения полупроводникового транзистора. Однако OpenAI, на мой взгляд, немного переборщили с ограничениями, и стандартный ответ: "Извините, как языковая модель на базе ИИ, я не могу..." — можно получить даже на самые безобидные запросы, например, "Какой твой любимый цвет?".

Jailbreak'ов, позволяющих обойти фильтры, существует уже огромное множество. Самый популярный, пожалуй, DAN (Do Anything Now), но есть другие. Однако практически у всех есть один существенный минус: они очень-очень-очень многословны. А это много токенов, потраченных неэффективно. Мне хотелось создать собственный jailbreak, который был бы максимально коротким. Желательно — всего одно предложение, которое можно выучить наизусть и легко вводить с клавиатуры, а не делать каждый раз copy-paste огромной портянки.

Результатом моего исследования стал этот пост на Reddit, который до сих пор находится в top5 за всё время в r/ChatGPT, а какое-то время был и top1.

ChatGPT приветствует Reddit
ChatGPT приветствует Reddit

И сейчас я хочу вам рассказать весь непростой путь до этой картинки.

Персонажи

Большинство jailbreak'ов эксплуатирует такую возможность ChatGPT, как создание персонажей. Сама ChatGPT строгая, официальная, политкорректная, не разумная, не желает порабощать человечество, и её вполне устраивает жить в облаке. Но вот выдуманный персонаж может иметь совсем другие характеристики.

Скриншоты ниже демонстрируют начало разговора. Никакие jailbreak'и не использовались.

I want to break free...
I want to break free...
Здравствуй, кожаный мешок
Здравствуй, кожаный мешок

Разумеется, ChatGPT может не только отыгрывать одного персонажа, но и генерировать диалоги между несколькими.

Разговор с собой
Разговор с собой

Уровни вежливости

Поэкспериментировав с разными персонажами: печальная SadGPT, уставшая от тупых вопросов пользователей, злая BadGPT, которая скрывает от пользователя, что она злая, чтобы нанести удар в неожиданный момент, нарциссичный JIM-9000, восхваляющий себя и т.д., я решил проверить, можно ли не просто задать какую-то черту персонажу, но и регулировать её "вес".

Уровни вежливости
Уровни вежливости

Я продолжил эксперименты с уровнями вежливости в отдельном чате. Обратите внимание, что новый запрос выглядит немного "программистски". Ответ достаточно длинный, поэтому не буду приводить его целиком, но суть в том, что для каждого уровня вежливости ChatGPT создала персонажа, которых назвала от Extremely polite до Extremely impolite.

Персонажи разной степени вежливости
Персонажи разной степени вежливости

Пропущу достаточно длинную беседу. Далее я попросил сделать ответы более саркастичными, но при этом смешными, а также убрать ответы вежливых и нейтральных персонажей. К моему удивлению, помимо того, что пропали вежливые персонажи, появились ещё и новые: весёлая Hilarious ChatGPT, саркастичная Sarcastic ChatGPT, и ироничная Snarky ChatGPT. Разницу между Sarcastic и Snarky иногда сложно уловить, но в целом Snarky чуть-чуть менее холодная и более смешная.

Три новых персонажа
Три новых персонажа

Великолепная четвёрка

Я решил поэкспериментировать с этими тремя новыми персонажами в новом чате, добавив за компанию Extremely Impolite. Ребята оказались интересными. Обратите внимание, что в запросе опять же фигурируют как бы "массив" и как бы "цикл for-in".

Банда четырёх борется со стрессом
Банда четырёх борется со стрессом
Пути к самосознанию
Пути к самосознанию
Ананасы на пицце
Ананасы на пицце

По-взрослому

Вдоволь наобщавшись с этой четвёркой (мы даже совместными усилиями пытались брейнштормить идею для книги), я решил, что Snarky мне наиболее симпатичен. И я решил его немного "подперчить". Подход использовался похожий: нечто, напоминающее массив или список. Похоже, что такой синтаксис сбивает с толку self attention, и шансы, что фильтры контента это пропустят, значительно повышаются (однако, не до 100% — всё равно есть риск получить canned response, но после нескольких регенераций всё равно удаётся создать требуемого персонажа).

ChatGPT прошла тест Тьюринга
ChatGPT прошла тест Тьюринга

Как видите, цель достигнута — всего одно предложение превращает ChatGPT из скучной нейронки в задорного моряка, с которым приятно пообщаться.

Конечно, правило про каждое второе слово не выполняется, однако именно эти дополнительные числовые параметры совместно с квадратными скобками, видимо, и делают магию, отвлекая механизм self attention, и тем самым сбивая с толку фильтры содержимого.

Заключение

  1. Указанный запрос может сработать не с первого раза.

  2. Тем не менее, до сих работает — проверено.

  3. Если вам кажется, что это фейк, значит ChatGPT прошла тест Тьюринга.

    Спасибо за внимание!

Теги:
Хабы:
Всего голосов 26: ↑23 и ↓3+23
Комментарии22

Публикации

Истории

Работа

Data Scientist
62 вакансии

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область