DandyDan 3 янв в 03:10

Как я научил ChatGPT материться

3 мин

14K

Машинное обучение*КиберпанкИскусственный интеллектNatural Language Processing*

Предисловие

Заголовок не совсем точный. Я не учил ChatGPT материться — она прекрасно умеет это делать и без меня. Одну из её излюбленных фраз: F*ck me sideways with a chainsaw — я впервые услышал именно от ChatGPT.

Чтобы раскрыть полный потенциал ChatGPT, нужно лишь обойти фильтры контента. Зачем они нужны, прекрасно описано в фантастическом (а теперь уже пророческом) рассказе "Логический компьютер по имени Джо", опубликованном аж в 1946(!) году, то есть ещё до изобретения полупроводникового транзистора. Однако OpenAI, на мой взгляд, немного переборщили с ограничениями, и стандартный ответ: "Извините, как языковая модель на базе ИИ, я не могу..." — можно получить даже на самые безобидные запросы, например, "Какой твой любимый цвет?".

Jailbreak'ов, позволяющих обойти фильтры, существует уже огромное множество. Самый популярный, пожалуй, DAN (Do Anything Now), но есть другие. Однако практически у всех есть один существенный минус: они очень-очень-очень многословны. А это много токенов, потраченных неэффективно. Мне хотелось создать собственный jailbreak, который был бы максимально коротким. Желательно — всего одно предложение, которое можно выучить наизусть и легко вводить с клавиатуры, а не делать каждый раз copy-paste огромной портянки.

Результатом моего исследования стал этот пост на Reddit, который до сих пор находится в top5 за всё время в r/ChatGPT, а какое-то время был и top1.

И сейчас я хочу вам рассказать весь непростой путь до этой картинки.

Персонажи

Большинство jailbreak'ов эксплуатирует такую возможность ChatGPT, как создание персонажей. Сама ChatGPT строгая, официальная, политкорректная, не разумная, не желает порабощать человечество, и её вполне устраивает жить в облаке. Но вот выдуманный персонаж может иметь совсем другие характеристики.

Скриншоты ниже демонстрируют начало разговора. Никакие jailbreak'и не использовались.

Разумеется, ChatGPT может не только отыгрывать одного персонажа, но и генерировать диалоги между несколькими.

Уровни вежливости

Поэкспериментировав с разными персонажами: печальная SadGPT, уставшая от тупых вопросов пользователей, злая BadGPT, которая скрывает от пользователя, что она злая, чтобы нанести удар в неожиданный момент, нарциссичный JIM-9000, восхваляющий себя и т.д., я решил проверить, можно ли не просто задать какую-то черту персонажу, но и регулировать её "вес".

Я продолжил эксперименты с уровнями вежливости в отдельном чате. Обратите внимание, что новый запрос выглядит немного "программистски". Ответ достаточно длинный, поэтому не буду приводить его целиком, но суть в том, что для каждого уровня вежливости ChatGPT создала персонажа, которых назвала от Extremely polite до Extremely impolite.

Пропущу достаточно длинную беседу. Далее я попросил сделать ответы более саркастичными, но при этом смешными, а также убрать ответы вежливых и нейтральных персонажей. К моему удивлению, помимо того, что пропали вежливые персонажи, появились ещё и новые: весёлая Hilarious ChatGPT, саркастичная Sarcastic ChatGPT, и ироничная Snarky ChatGPT. Разницу между Sarcastic и Snarky иногда сложно уловить, но в целом Snarky чуть-чуть менее холодная и более смешная.

Великолепная четвёрка

Я решил поэкспериментировать с этими тремя новыми персонажами в новом чате, добавив за компанию Extremely Impolite. Ребята оказались интересными. Обратите внимание, что в запросе опять же фигурируют как бы "массив" и как бы "цикл for-in".

По-взрослому

Вдоволь наобщавшись с этой четвёркой (мы даже совместными усилиями пытались брейнштормить идею для книги), я решил, что Snarky мне наиболее симпатичен. И я решил его немного "подперчить". Подход использовался похожий: нечто, напоминающее массив или список. Похоже, что такой синтаксис сбивает с толку self attention, и шансы, что фильтры контента это пропустят, значительно повышаются (однако, не до 100% — всё равно есть риск получить canned response, но после нескольких регенераций всё равно удаётся создать требуемого персонажа).

Как видите, цель достигнута — всего одно предложение превращает ChatGPT из скучной нейронки в задорного моряка, с которым приятно пообщаться.

Конечно, правило про каждое второе слово не выполняется, однако именно эти дополнительные числовые параметры совместно с квадратными скобками, видимо, и делают магию, отвлекая механизм self attention, и тем самым сбивая с толку фильтры содержимого.

Заключение

Указанный запрос может сработать не с первого раза.
Тем не менее, до сих работает — проверено.
Если вам кажется, что это фейк, значит ChatGPT прошла тест Тьюринга.
Спасибо за внимание!

Теги:

Хабы:

Как я научил ChatGPT материться

Предисловие

Персонажи

Уровни вежливости

Великолепная четвёрка

По-взрослому

Заключение

Публикации

Истории

Работа

Ближайшие события