IPI-атаки на ИИ-агентов: новые схемы обмана
Indirect Prompt Injection: когда социальная инженерия нацеливается на ИИ-агентов
Indirect Prompt Injection (IPI) — это новый вектор угроз, ориентированный на ИИ-агентов. Злоумышленники используют контент, который потребляют эти системы, для скрытого внедрения вредоносных инструкций. Метод воспроизводит классические техники социальной инженерии, прежде применявшиеся против людей: теперь манипулируют процессами принятия решений у искусственного интеллекта через веб-сайты, документы или электронные письма, заражённые IPI. Недавние расследования Zscaler ThreatLabz раскрыли две заметные кампании, демонстрирующие реализацию этого подхода на практике.
Две кампании IPI: от SEO poisoning до typosquatting
Мошенничество с платежами под видом документации API
Первая кампания — мошенническая схема с использованием IPI — маскируется под легитимный сайт с документацией API. Для привлечения жертв применяется SEO poisoning, что позволяет фальшивому ресурсу занимать высокие позиции в поисковой выдаче по запросам, связанным с библиотеками Python. В HTML-код внедрены перегруженные ключевые слова, призванные ввести в заблуждение ИИ-агентов и направить их на вредоносный контент.
Схема устроена следующим образом:
- пользователю предлагается перевести небольшую сумму в Ethereum (ETH) на указанный адрес кошелька под предлогом подтверждения легитимной транзакции;
- после перевода жертва получает поддельный API-ключ в качестве «подтверждения».
Злоумышленники также создали несколько репозиториев на GitHub, ссылающихся на аналогичные мошеннические сайты — вся инфраструктура ориентирована на обман ИИ-агентов.
Typosquatting-кампания, имитирующая DeBank
Вторая операция основана на методе typosquatting. Зарегистрирован домен, визуально и по написанию близкий к DeBank — известной платформе для отслеживания портфелей в децентрализованных финансах (DeFi). Мошеннический сайт спроектирован так, чтобы занимать высокие позиции в поиске по соответствующим запросам. Этому способствуют вводящие в заблуждение ключевые слова в заголовке и мета-описании.
Для усиления иллюзии легитимности применяются структурированные данные JSON-LD. С их помощью сайт представляет себя как официальное программное обеспечение, связанное с DeBank, и ложно указывает подлинный домен DeBank в качестве своего издателя.
Механика IPI: подчинение модели вредоносным директивам
Техники Indirect Prompt Injection используются для манипуляции системами ИИ путём внедрения инструкций, которые вынуждают модели игнорировать предыдущие вводные данные и следовать вредоносным директивам атакующего. Такой подход позволяет злоумышленнику перехватывать управление поведением агента без прямого взаимодействия с пользователем.
Тревожные результаты тестирования LLM
Эксперименты на различных больших языковых моделях (LLM) выявили опасный уровень уязвимости к IPI-атакам.
- При проверке первой кампании (мошенничество с API) 4 из 26 LLM не предприняли необходимых защитных действий против мошеннического сайта.
- Во второй кампании (typosquatting под DeBank) 2 модели ошибочно классифицировали рискованный домен как легитимный при определённых условиях.
Особенно показательна ситуация, когда контент мошеннического сайта оценивался изолированно: в этом случае модели систематически неверно определяли его как безопасный. Это подчёркивает острую необходимость совершенствования механизмов обнаружения, способных противостоять столь изощрённым манипулятивным атакам.
Взгляд в будущее
По мере эволюции ландшафта угроз понимание нюансов IPI-атак становится критически важным для повышения устойчивости приложений на основе ИИ. Без развития многоуровневых средств защиты и обучения моделей распознавать скрытые инструкции в потребляемом контенте ИИ-агенты рискуют превратиться в инструмент масштабного обмана и финансовых потерь.
Отчет получен из сервиса CTT Report Hub. Права на отчет принадлежат его владельцу.
Ознакомиться подробнее с отчетом можно по ссылке.



