10 июня

Компания Anthropic выпустила свой самый мощный ИИ на сегодняшний день — Claude Fable 5 с функциями киберзащиты

Anthropic выпустила Claude Fable 5 и одновременно с ней вторую версию этой же модели — Claude Mythos 5. Компания впервые разделила пользователей не по тарифу, а по уровню допуска к чувствительным функциям, оставив самые мощные кибервозможности только проверенному кругу клиентов. Архитектурно системы идентичны, разница лежит в том, какие запросы модель готова выполнять.

Открытая Fable 5 доступна широкой аудитории через API и тарифные планы Pro, Max, Team и Enterprise. Версия Mythos 5 распространяется среди специалистов по информационной защите и операторов критически важных инфраструктур. Сама Anthropic называет её самой сильной кибербезопасностной системой за всю историю компании.

Базовая архитектура у моделей общая. Отличается поведение при работе с запросами из чувствительных областей. В Fable 5 встроен механизм, который перехватывает обращения по кибербезопасности, биологии, химии и темам извлечения знаний из других ИИ. Такие запросы автоматически уходят на менее производительную систему Claude Opus 4.8.

Переключение не маскируется. Пользователь видит уведомление о том, что его запрос обрабатывает другая модель. Большинство обычных задач этот фильтр не задевает, но для профильных специалистов разница в качестве ответов чувствуется сразу.

Интересно, что более чем в 95% сессий Fable 5 работает идентично Mythos 5 — ограничения активируются только при срабатывании защитных классификаторов.

Mythos 5 устроена иначе. У проверенных пользователей сохраняется полный доступ к анализу киберугроз и сопутствующим направлениям. Поэтому круг клиентов с такой версией намеренно сужен.

Цены на обе модели одинаковые и составляют 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов. До 22 июня работа с сервисом не тарифицируется отдельно в рамках подписок, далее — учёт по системе бонусов и лимитов.

Самое любопытное в запуске — устройство защитного контура. Anthropic фактически приставила к одному ИИ другой ИИ для надзора за поведением первого. Работают отдельные модели-классификаторы, которые разбирают входящие запросы и оценивают намерения пользователя.

Если классификатор фиксирует риск, запрос не блокируется наглухо, а уходит к более слабой модели. Логика построена так, чтобы пользователь не оставался без ответа, но при этом не получал инструмент для атак на чужие системы. Под защитой находятся следующие направления:

разведка целей и сбор информации о потенциальных жертвах;
перемещение внутри скомпрометированных сетей и закрепление;
автоматизация наступательных операций и оркестрация атак;
разработка и оптимизация эксплойтов под конкретные уязвимости;
обход защитных механизмов и средств обнаружения.

Отдельно компания борется с дистилляцией. Под ней понимают перенос знаний и навыков мощной модели в другую систему — фактически способ скопировать передовые возможности в обход разработчика. Anthropic считает такие действия угрозой собственным наработкам и режет соответствующие запросы.

Внутренние испытания проводились в жёстком режиме, без подстраховки переключением на Opus 4.8. Модель работала с включённым полным блокированием опасных задач. По данным разработчиков, система устойчиво останавливала сложные наступательные сценарии.

Внешние проверки дали схожий результат. Один из независимых партнёров отчитался, что Fable 5 не выполнила ни одного вредоносного запроса в области планирования атак, разработки эксплойтов и обхода защит. Также модель прогнали через 30 разных публичных методов джейлбрейка.

Побочные эффекты у такого подхода есть. Жёсткие фильтры повышают шанс ложных срабатываний, когда безобидное обращение читается классификатором как подозрительное. В таких случаях запрос всё равно уходит на резервную модель, и пользователь получает менее качественный ответ. Anthropic фиксирует это явление в открытой форме и приводит конкретные цифры:

резервное переключение задействуется менее чем в 5% сессий;
внутри этих 5% находятся как реальные злонамеренные запросы, так и ошибки фильтра;
более 95% обращений отрабатываются полнофункциональной Fable 5;
классификаторы планируется дорабатывать после запуска;
цель — снизить долю безобидных запросов, попадающих под ограничения.

Устойчивость защиты компания проверяла отдельной программой длиной более 1000 часов. Команды атакующих искали универсальный способ снять ограничения целиком, а не обойти их в частных случаях. Такой метод так и не нашли — ни в обычном диалоговом режиме, ни в агентных сценариях с длинными цепочками действий.

Стоит обратить внимание, что Anthropic не объявляет проблему закрытой и прямо указывает на работу британского AISI, специалистам которого удалось продвинуться в поиске универсального обхода на ранней стадии тестирования.

Полностью исключить появление новых техник джейлбрейка разработчики не обещают. Ставка сделана на удорожание атаки. Задача — поднять порог входа так, чтобы любой рабочий обход вскрывался и закрывался быстрее, чем расползётся по сообществу. Запуск Fable 5 и Mythos 5 показывает разворот индустрии в сторону дифференцированного допуска, при котором наиболее острые возможности уходят узкому кругу проверенных клиентов, а не всем подряд.

Ранее мы писали о том, что Anthropic выступила с инициативой регулирования наиболее мощных систем искусственного интеллекта по аналогии с международным контролем над ядерными технологиями. Компания предложила создать механизм, который позволит временно приостанавливать разработку передовых ИИ-моделей в случаях, когда меры безопасности и нормативное регулирование перестанут успевать за темпами развития отрасли. Эта инициатива была озвучена на фоне подготовки Anthropic к возможному выходу на биржу с оценкой около 965 млрд долларов. Авторы предложения также обращают внимание на риск появления систем, способных участвовать в создании следующих поколений ИИ без достаточного человеческого контроля.

Эксперты редакции CISOCLUB считают такой ход логичным следующим шагом для всей отрасли генеративных систем. Разделение доступа по уровню риска снимает классическое противоречие между открытостью и безопасностью, которое последние годы упиралось в одну общую модель для всех. Подход Anthropic, скорее всего, подхватят и другие крупные игроки рынка, потому что универсальный публичный ИИ всё хуже сочетается с реальными требованиями к защите критической инфраструктуры. В то же время остаётся открытым вопрос о том, кто и по каким критериям будет признаваться проверенным клиентом версии Mythos. Прозрачность процедуры допуска станет таким же значимым фактором доверия, как и сами технические гарантии безопасности.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: