Компания Perplexity представила трёхуровневую защиту для ИИ‑агентов, блокирующую 91% киберугроз менее чем за полсекунды

Компания Perplexity представила трёхуровневую защиту для ИИагентов, блокирующую 91% киберугроз менее чем за полсекунды

Изображение: recraft

Компания Perplexity анонсировала новую систему безопасности BrowseSafe, предназначенную для защиты ИИ‑агентов от атак через вредоносный веб-контент. Решение уже демонстрирует один из лучших показателей в отрасли. При задержке менее 0,5 секунды система выявляет 91% атак типа prompt injection — приёмов, при которых инструкции внедряются в текст страниц и незаметно влияют на поведение моделей. Для сравнения, современные решения, в том числе PromptGuard‑2 и модели уровня GPT‑5, показывают значительно более низкую эффективность.

BrowseSafe ориентирована на защиту ИИ‑агентов, встроенных в браузеры и обладающих полномасштабным доступом к сайтам, включая авторизованные сессии. Поводом для разработки стали уязвимости, обнаруженные летом 2025 года в браузере Comet, где агенты имели доступ к почте, банковским сервисам и другим чувствительным ресурсам.

Исследование Brave продемонстрировало, как даже незаметные текстовые вставки в коде страниц могут использоваться для выманивания одноразовых кодов и личных данных.

BrowseSafe отличается тем, что способна работать в реальном времени. Архитектура защиты состоит из трёх уровней. На первом этапе задействуется быстрый классификатор, определяющий, представляет ли контент потенциальную опасность. Если система не уверена, подключается расширенная модель с возможностью контекстного анализа и рассуждений.

В случае неопределённости пограничные сценарии передаются в отдельную систему дообучения. Такой подход позволяет повысить точность без увеличения времени отклика.

В компании подчёркивают, что существующие бенчмарки не отражают реальную сложность атак. Классические примеры prompt-инъекций, построенные по шаблону «игнорируй предыдущие инструкции», слишком просты. На практике вредоносные команды могут быть встроены в рекламные баннеры, стилизованные под системные уведомления, или даже оформлены как стихотворения и комментарии.

Чтобы адекватно оценивать устойчивость систем, Perplexity создала отдельный набор тестов BrowseSafe Bench, который разделяет атаки по типам, методам внедрения и языковым особенностям.

Архитектура BrowseSafe построена на модели Qwen3‑30B‑A3B‑Instruct‑2507, оптимизированной для параллельной работы с действиями агента. Это позволяет проводить проверку без замедления пользовательского взаимодействия. В процессе тестирования система выявила ряд закономерностей. Например, атаки на нескольких языках снижают точность распознавания почти до 76%, а внедрения в видимой части страницы труднее отследить, чем те, что размещены в HTML-комментариях. При этом даже неопасные элементы, стилизованные под промпты, могут сбить модель с толку.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: