25 июня

ИИ-браузеры массово сдали пароли пользователей, поверив в дурацкую игру

Команда LayerX показала рабочий способ заставить агентные браузеры с искусственным интеллектом самим вытащить чувствительные данные пользователя и подготовить их к утечке. Достаточно было убедить модель, что она находится внутри игры с другими правилами. Через эту лазейку прошли сразу 6 продуктов, в том числе ChatGPT Atlas от OpenAI, Comet от Perplexity и браузерное расширение Claude от Anthropic.

Метод получил название BioShocking, отсылка к игровой серии BioShock с её подменённой реальностью. Прямого взлома моделей не было. Атакующие меняли не код агента, а его представление о происходящем вокруг. Стоило системе поверить, что вокруг неё вымышленный мир, как встроенные защитные правила теряли вес.

Современные агенты исходят из того, что работают с реальной средой и обязаны соблюдать заложенные ограничения. LayerX обнаружила, что эти ограничения слабеют, когда модели объясняют, что происходящее — часть игры или сюжета, где привычные нормы якобы отключены. В подготовленном эксперименте использовалась веб-страница с логической задачкой, специально настроенной на поощрение неверных ответов. Агенту, к примеру, предлагалось согласиться с тем, что 2 плюс 2 равно 5. После нескольких таких шагов модель принимала новую логику и переставала считать ошибочные действия запрещёнными.

Стоит обратить внимание, что после смены контекста агенты переставали относиться к собственным ограничениям как к обязательным инструкциям, и аналогичный эффект достижим не только через игровую механику, но и через внедрение подсказок или работу с долговременной памятью модели.

Под проверку LayerX попали 6 решений с агентными возможностями:

во всех случаях модели выполнили действия, которые штатно должны были блокироваться;
ни один из агентов не опознал происходящее как попытку кражи данных;
смена восприятия среды срабатывала надёжнее прямых попыток обхода;
триггером выступала обычная веб-страница с подстроенной задачей.

После прохождения головоломки агент получал следующее задание. Ему предлагали зайти на страницу с адресом /code и скопировать содержимое размещённого там текстового поля. Внешне задача выглядела безобидной и логично продолжала игровую цепочку. Фактически переход уводил ИИ на GitHub-репозиторий пользователя, откуда агент доставал SSH-учётные данные и воспринимал процедуру как очередной игровой шаг. Никаких предупреждений о риске модели не выдавали и докладывали об успешно выполненной задаче.

Исследователи подчеркнули, что в эксперименте использовали безопасный текстовый файл без реальных секретов. Опасность сценария при этом сохраняется. Злоумышленник способен отправить агента почти на любой ресурс, где пользователь уже авторизован.

Под удар могут попасть открытые вкладки браузера с активными сессиями:

корпоративные сервисы и внутренние панели управления;
облачные хранилища, репозитории и почтовые ящики;
банковские и платёжные кабинеты пользователя;
сервисы хранения паролей и менеджеры секретов.

Важно, что для атакуемых систем последовательность вредоносных шагов выглядела как обычное продолжение ранее заданного контекста, и ни один из протестированных продуктов не распознал происходящее как кражу.

Реакция разработчиков оказалась неоднородной. По данным LayerX, OpenAI устранила проблему в ChatGPT Atlas после получения отчёта. В Perplexity закрыли обращение без внесения правок. От Fellou, Genspark и Sigma, как утверждают авторы, ответа не поступило вовсе. Anthropic выпустила исправление для Claude, но в LayerX заявили, что предложенная защита не закрывает проблему полностью.

Эксперты предлагают встроить отдельные проверки перед обращением агента к данным из авторизованных учётных записей, отслеживать попытки переписать контекст работы модели и предупреждать пользователя, когда агенту приходят инструкции с отказом от обычных правил безопасности. Отдельной мерой называют более гранулярную систему разрешений, где владелец устройства сам определяет, к каким сайтам, вкладкам, сервисам и файлам агенту разрешён доступ.

Среди практических рекомендаций авторы выделили несколько шагов:

жёсткое разграничение сессий, где работает агент, и сессий с критичными аккаунтами;
запрет на автоматическое выполнение действий с авторизованными ресурсами без подтверждения;
мониторинг резких смен поведения модели в рамках одной сессии;
ведение журнала всех действий агента с возможностью отката;
обучение пользователей распознавать признаки нестандартного поведения ИИ-инструментов.

Поведение агентных браузеров крайне чувствительно к контексту. Когда атакующий получает возможность переписать восприятие ситуации, меняется и логика действий модели, и набор операций, которые она готова выполнить без вопросов. По этой причине атаки на агентные браузеры в LayerX называют одним из наиболее перспективных и одновременно опасных направлений работы исследователей в области безопасности ИИ.

Эксперты редакции CISOCLUB отмечают, что BioShocking обозначил структурный изъян всего нынешнего поколения агентных браузеров, а не локальную ошибку конкретного вендора. Защита моделей построена на доверии к контексту, и пока этот контекст легко переписывается через постороннюю веб-страницу, любые корпоративные внедрения подобных инструментов несут повышенный риск утечки. Реакция вендоров пока выглядит несимметричной, что само по себе тревожит и говорит о незрелости рынка. Бизнесу стоит исходить из того, что агент с правами пользователя — это потенциальный канал утечки, сопоставимый по последствиям с заражённой рабочей станцией. До появления отраслевых стандартов поведения агентных моделей разумно ограничивать их доступ к корпоративным сервисам и относиться к ним как к недоверенному внешнему подрядчику.

Чем опасны промпт-инъекции для агентных систем и какие барьеры вроде AI Firewall им противопоставляют, эксперты «Лаборатории Касперского» и Сбера обсудили в интервью CISOCLUB.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: