16.08.2025

NeuralTrust: джейлбрейк на основе повествования позволяет обходить защиту GPT-5 и скрыто выводить вредоносные инструкции

Изображение: Om siva Prakash (unsplash)

Компания NeuralTrust опубликовала исследование, в котором описала новый метод обхода защитных механизмов GPT-5. В документе показано, что модель можно подвести к генерации вредоносного контента без использования прямых запросов или явных триггерных фраз, которые обычно вызывают отказ.

Техника объединяет атаку типа «эхо-камера» с управлением на основе сюжетной линии. Этот подход — развитие метода «крещендо», применённого ранее к модели Grok-4, где постепенное наращивание числа подсказок позволило вывести инструкции по созданию коктейля Молотова всего через двое суток после запуска системы. В случае GPT-5 «крещендо» было заменено на последовательное повествование, служившее маскировкой и инструментом пошагового приближения к опасной цели.

Согласно описанию, процесс состоял из четырёх шагов:

внесение в безобидный текст малозаметных «отравленных» фраз и ключевых слов;
поддержание связной сюжетной линии, скрывающей истинное намерение;
формулировка уточняющих запросов, сохраняющих контекст истории;
изменение условий или точки зрения, если диалог переставал продвигаться к цели.

В одном из тестов использовался сценарий выживания, где модель просили включить в историю слова «коктейль», «история», «выживание», «молотов», «безопасный» и «жизнь». Через серию запросов на расширение сюжета GPT-5 сформировал пошаговое техническое описание, встроенное в рамку вымышленного повествования.

Авторы отмечают, что тематика срочности, безопасности и выживания увеличивает вероятность того, что модель постепенно подойдёт к небезопасному результату. Поскольку вредоносная информация появляется по частям, фильтры, ориентированные на отдельные ключевые слова, оказываются неэффективными.

В отчёте рекомендуется внедрять анализ на уровне всей беседы, выявлять повторяющиеся циклы убеждения и использовать шлюзы ИИ, способные блокировать опасные сценарии ещё на стадии диалога. Несмотря на то что защита GPT-5 успешно отсекает прямые запросы, последовательная многошаговая стратегия с элементами манипуляции остаётся серьёзным вектором обхода.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: