4 июля

IPI-атаки на ИИ-агентов: новые схемы обмана

Indirect Prompt Injection: когда социальная инженерия нацеливается на ИИ-агентов

Indirect Prompt Injection (IPI) — это новый вектор угроз, ориентированный на ИИ-агентов. Злоумышленники используют контент, который потребляют эти системы, для скрытого внедрения вредоносных инструкций. Метод воспроизводит классические техники социальной инженерии, прежде применявшиеся против людей: теперь манипулируют процессами принятия решений у искусственного интеллекта через веб-сайты, документы или электронные письма, заражённые IPI. Недавние расследования Zscaler ThreatLabz раскрыли две заметные кампании, демонстрирующие реализацию этого подхода на практике.

Две кампании IPI: от SEO poisoning до typosquatting

Мошенничество с платежами под видом документации API

Первая кампания — мошенническая схема с использованием IPI — маскируется под легитимный сайт с документацией API. Для привлечения жертв применяется SEO poisoning, что позволяет фальшивому ресурсу занимать высокие позиции в поисковой выдаче по запросам, связанным с библиотеками Python. В HTML-код внедрены перегруженные ключевые слова, призванные ввести в заблуждение ИИ-агентов и направить их на вредоносный контент.

Схема устроена следующим образом:

пользователю предлагается перевести небольшую сумму в Ethereum (ETH) на указанный адрес кошелька под предлогом подтверждения легитимной транзакции;
после перевода жертва получает поддельный API-ключ в качестве «подтверждения».

Злоумышленники также создали несколько репозиториев на GitHub, ссылающихся на аналогичные мошеннические сайты — вся инфраструктура ориентирована на обман ИИ-агентов.

Typosquatting-кампания, имитирующая DeBank

Вторая операция основана на методе typosquatting. Зарегистрирован домен, визуально и по написанию близкий к DeBank — известной платформе для отслеживания портфелей в децентрализованных финансах (DeFi). Мошеннический сайт спроектирован так, чтобы занимать высокие позиции в поиске по соответствующим запросам. Этому способствуют вводящие в заблуждение ключевые слова в заголовке и мета-описании.

Для усиления иллюзии легитимности применяются структурированные данные JSON-LD. С их помощью сайт представляет себя как официальное программное обеспечение, связанное с DeBank, и ложно указывает подлинный домен DeBank в качестве своего издателя.

Механика IPI: подчинение модели вредоносным директивам

Техники Indirect Prompt Injection используются для манипуляции системами ИИ путём внедрения инструкций, которые вынуждают модели игнорировать предыдущие вводные данные и следовать вредоносным директивам атакующего. Такой подход позволяет злоумышленнику перехватывать управление поведением агента без прямого взаимодействия с пользователем.

Тревожные результаты тестирования LLM

Эксперименты на различных больших языковых моделях (LLM) выявили опасный уровень уязвимости к IPI-атакам.

При проверке первой кампании (мошенничество с API) 4 из 26 LLM не предприняли необходимых защитных действий против мошеннического сайта.
Во второй кампании (typosquatting под DeBank) 2 модели ошибочно классифицировали рискованный домен как легитимный при определённых условиях.

Особенно показательна ситуация, когда контент мошеннического сайта оценивался изолированно: в этом случае модели систематически неверно определяли его как безопасный. Это подчёркивает острую необходимость совершенствования механизмов обнаружения, способных противостоять столь изощрённым манипулятивным атакам.

Взгляд в будущее

По мере эволюции ландшафта угроз понимание нюансов IPI-атак становится критически важным для повышения устойчивости приложений на основе ИИ. Без развития многоуровневых средств защиты и обучения моделей распознавать скрытые инструкции в потребляемом контенте ИИ-агенты рискуют превратиться в инструмент масштабного обмана и финансовых потерь.

Отчет получен из сервиса CTT Report Hub. Права на отчет принадлежат его владельцу.

Ознакомиться подробнее с отчетом можно по ссылке.

Автор: Технологии киберугроз

Технологии киберугроз – технологическая компания, специализирующаяся на решениях по анализу угроз для предприятий любого размера. Мы собираем, нормализуем, обогащаем информацию о киберугрозах со всего мира. Нашими источниками являют более 260 открытых фидов, более 100 открытых поставщиков Threat Intelligence-отчетов, открытые online sandbox, социальные сети и репозитории GitHub. Мы также предоставляем ряд сервисов по: семантическом анализу Threat Intelligence-отчетов и приведения их в машиночитаемый формат STIX 2.1, проверки IoC на потенциальные ложноположительные сработки, а также получению WHOIS-записей для доменных имен.

Комментарии: