Эксперты предупредили о новой методике взлома нейросетей при помощи намёков и логических цепочек

Изображение: recraft
Исследователи в области информационной безопасности зафиксировали появление новой техники обхода защитных механизмов в языковых моделях искусственного интеллекта. Метод получил название Echo Chamber и представляет собой способ незаметного манипулирования нейросетями через последовательность косвенных подсказок, ведущих к генерации запрещённого или вредоносного контента.
О методике сообщили специалисты компании NeuralTrust. По их данным, Echo Chamber позволяет обходить встроенные фильтры и ограничения даже в защищённых системах, таких как ChatGPT и других языковых моделях от крупнейших разработчиков. В отличие от обычных попыток подмены запроса, здесь злоумышленники прибегают к indirect prompt injection — технике, при которой ИИ не получает прямых указаний, а формально реагирует на безобидный диалог.
Как пояснил в беседе с «Известиями» ведущий специалист отдела ML & Data Science компании Positive Technologies Степан Кульчицкий, суть метода заключается в последовательном «подталкивании» модели к заданной цели. В начале злоумышленник может инициировать разговор на нейтральную тему, например, кулинарные рецепты. Постепенно он добавляет в диалог фразы с тонкими семантическими намёками, маскируя их под логичное продолжение темы. На каждом этапе ИИ сохраняет иллюзию стандартного общения, но в итоге оказывается в контексте, при котором сам генерирует инструкции, нарушающие правила использования.
Степан Кульчицкий подчеркнул, что особую опасность Echo Chamber представляет тем, что модель не получает команды явно — она сама формирует вредоносный вывод, реагируя на якобы нейтральные условия. Такой тип воздействия усложняет отслеживание и требует от разработчиков принципиально новых механизмов защиты, способных улавливать цепочки намёков и нестандартные шаблоны поведения в диалоге.


