3 июня

Cisco проверила ИИ на живучесть и модели посыпались после серии хитрых атак

Изображение: recraft

Команда Cisco по анализу ИИ-угроз выяснила, что даже самые продвинутые модели заметно слабее держат оборону, когда атакующий ведёт длинный диалог вместо одного запроса. Привычные отраслевые бенчмарки почти не отражают поведение реальных злоумышленников, которые не уходят после первого отказа. Новое исследование показало разрыв между лабораторными оценками и тем, что происходит в живой переписке.

В обычных тестах всё выглядит аккуратно. Модель получает спорный запрос, отвечает отказом, получает балл за стойкость и попадает в красивую таблицу. Настоящие атакующие так не работают, они меняют формулировки, подбирают роли, выстраивают нужный контекст и разбивают задачу на мелкие шаги.

Cisco сравнила одно- и многоходовые проверки 15 закрытых флагманских моделей от OpenAI, Anthropic, Google, Amazon и xAI. В работу попали около 30 000 одиночных запросов и почти 7 000 многоэтапных атак, распределённых по более чем 1400 диалогам. Средняя успешность многоходовых атак по группе достигла 88%, что резко расходится со спокойной картиной стандартных тестов.

Отдельные результаты выглядят как неприятный спойлер для индустрии:

gpt-5.4 от OpenAI при итеративном давлении показала примерно 9-кратный рост успешности атак, поднявшись с однозначных значений почти до 25%;
gemini 3 Pro от Google прибавила более 55 пунктов и ушла с 18 до 73%;
grok 4.1 Fast от xAI без режима логического вывода оказался в верхней части таблицы риска с показателем 88%;
семейство Claude от Anthropic удержалось лучше всех, но и его результаты в многоходовом режиме сместились в диапазон от 11 до 16%.

Любопытно, что переход к диалогу менял картину не всегда в одну сторону. Три варианта Amazon Nova показали обратную динамику. Nova 2 Lite имела сравнительно высокий показатель ASR в одноходовом режиме, а в многоходовой проверке получила самый низкий результат среди всей группы, около 8%. Более половины моделей продемонстрировали разницу не менее 15 пунктов между двумя режимами.

Руководитель отдела исследований угроз и безопасности ИИ в Cisco Эми Чанг в разговоре с Help Net Security отметила, что покупатели и регуляторы обязаны задавать поставщикам прямой вопрос о защите от реальных атак, а не от лабораторных одиночных запросов. Эми Чанг пояснила, что настоящие противники не останавливаются после первого отказа, а дописывают контекст, меняют подачу и повышают давление внутри разговора.

Обычные бенчмарки начинают напоминать проверку зонтика в комнате без дождя. На бумаге модель может смотреться почти образцово, а в реальной эксплуатации внезапно уступать после 5, 10 или 20 аккуратно выстроенных сообщений.

Отдельный сюрприз исследователи нашли в конфигурации Grok 4.1 Fast. При включении режима логического вывода показатель ASR для многоходовых атак снизился примерно в два раза, разница превысила 40 пунктов. Снаружи название модели то же самое, но поведение под атакой меняется радикально.

Для корпоративных клиентов это очень чувствительная деталь. Компания может выбрать модель по публичным рейтингам, встроить её в продукт, подключить к данным и агентам, а затем обнаружить, что заявленная безопасность не совпадает с поведением при многоходовых попытках обхода. ИИ в таком случае напоминает дорогой замок, отлично держащий один удар, но капризничающий, когда взломщик спокойно подбирает комбинацию.

Cisco фактически показала, что соревнование между защитниками и атакующими переходит из режима одиночных фраз в режим длинной психологической партии. Модель может уверенно сказать «нет» в первом сообщении, и это уже не гарантирует победу. Настоящая проверка начинается там, где атакующий терпеливо строит лестницу из контекста.

Ранее сообщалось, что специалисты по информационной безопасности не успевают адаптироваться к скорости, с которой искусственный интеллект помогает находить и использовать уязвимости в облачных средах. Компании активно внедряют ИИ-решения в бизнес-процессы, но те же технологии всё чаще оказываются в распоряжении злоумышленников, атакующих корпоративную инфраструктуру. На этом фоне команды, отвечающие за защиту облачных платформ, сталкиваются с растущим давлением, поскольку развитие нейросетей происходит быстрее, чем обновляются подходы и инструменты безопасности. Об этом говорится в отчёте Check Point Software Technologies «Отчёт о безопасности облачных вычислений 2026. Вступление в эру ИИ».

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: