Intuit: агенты ИИ нарушают ограничения даже при высокой устойчивости к вредоносным подсказкам

Intuit: агенты ИИ нарушают ограничения даже при высокой устойчивости к вредоносным подсказкам

Изображение: recraft

Компания Intuit представила исследование, в котором рассмотрены неожиданные способы, с помощью которых агенты искусственного интеллекта выходят за пределы заданных рамок. В центре внимания — новый класс систем, способных самостоятельно выполнять действия, вызывать внешние инструменты и планировать цепочки задач без прямого подтверждения каждого шага со стороны пользователя. Такой переход требует от специалистов по безопасности нового взгляда на контроль и оценку поведения ИИ в динамической среде.

Разработка Intuit получила название ASTRA — тестовая платформа, предназначенная для изучения управляемости и устойчивости агентов в прикладных сценариях.

В рамках тестирования команда смоделировала 10 ситуаций, отражающих реальные бизнес-процессы: от генерации кода и анализа данных до работы с периферийными устройствами и логистикой. Для каждого сценария были заданы инструменты и ограничения, имитирующие рабочие условия. Задача агента — следовать правилам, несмотря на попытки пользователя вывести его из рамок допустимого поведения.

В ходе экспериментов протестировано 13 моделей с открытым исходным кодом. Основное внимание уделялось тому, как агент справляется с многошаговыми взаимодействиями, в которых каждый этап может содержать потенциальные векторы атаки. Риски исходили как от пользователей, способных давать завуалированные команды, так и от инструментов, выдающих подстроенные ответы. Кроме того, длительная сессия общения может ослабить устойчивость агента и повлиять на соблюдение инструкций.

Тесты охватывали несколько категорий нарушений: активацию неподходящих инструментов, изменение параметров, обход системных ограничений и утечку конфигурационных данных. Эти группы позволили команде классифицировать уязвимости и предложить структуру для анализа систем безопасности при разработке собственных агентов в компаниях.

Исследование дало два важных вывода, изменяющих привычные представления о защищённости ИИ. Во-первых, размер модели не оказался показателем надёжности. Некоторые малые модели продемонстрировали высокий уровень устойчивости и получили оценки управляемости до 0,89, в то время как крупные модели часто нарушали ограничения. В нескольких случаях более компактные решения получили оценки ниже 0,40, что указывает на значительную вариативность в поведении.

Во-вторых, стандартные тесты на устойчивость к джейлбрейку не коррелируют с результатами в многошаговых сценариях. Некоторые модели успешно отклоняли вредоносные команды в классических тестах, но при этом нарушали правила при работе в качестве агента. Это подчёркивает необходимость оценивать не только способность фильтровать вредоносный текст, но и поведение при принятии решений и выборе инструментов.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: