1 июля

Anthropic вернула Fable 5 и Mythos 5 после переработки защиты от джейлбрейков

Изображение: Aerps.com (unsplash)

Anthropic снова открыла доступ к большим языковым моделям Claude Fable 5 и Claude Mythos 5, приостановленный менее чем на три недели. Возврат сопровождается серьёзной переработкой защитной архитектуры — компания добавила новые барьеры против обхода фильтров после того, как исследователи продемонстрировали способ вытянуть из одной из моделей потенциально опасное содержимое.

Экспортные ограничения, наложенные американскими властями, вынудили Anthropic временно свернуть международное распространение обеих моделей. Уже 30 июня запрет сняли, а с 1 июля пользователи снова могут работать с Fable 5 и Mythos 5. Обновлённые версии получили усиленный контур контроля, снижающий шансы на повторение известного метода взлома.

Fable 5 вернулась к пользователям по всему миру через экосистему Claude Platform, Claude.ai, Claude Code и Claude Cowork. Подписчикам тарифов Pro, Max, Team и части корпоративных планов модель на время включили в недельный лимит использования. По окончании этого периода работа продолжится в рамках привычной системы расходования пользовательских кредитов.

Раскатка охватывает и облачные площадки. Anthropic поэтапно возвращает модель в Amazon Web Services, Google Cloud и Microsoft Foundry, чтобы корпоративные клиенты и разработчики получили привычный набор точек входа.

Толчком к перестройке защиты стало исследование команды Amazon. Аналитики нащупали вариант jailbreak-атаки, при котором определённая цепочка запросов вынуждает Fable 5 разбирать программные уязвимости, а в одном из случаев — сформировать описание работающего эксплойта. Такой исход означал, что встроенный контур модели удалось обойти.

Стоит обратить внимание, что обнаруженный способ не раскрывал возможностей уровня Mythos, но компания всё равно пошла на полную переработку защитной архитектуры.

Опубликованные материалы в Anthropic изучили и решили, что риск требует не косметических правок, а нового слоя контроля. Так появилась обновлённая сборка Fable 5 с усиленной системой распознавания подозрительных сценариев общения.

Центральный элемент апдейта — автоматический классификатор безопасности. Отдельный ИИ-компонент читает пользовательские запросы в момент диалога и сверяет их со списком опасных шаблонов. Если система считает намерения подозрительными, запрос обрывается до формирования ответа.

Классификатор работает по нескольким направлениям, среди которых Anthropic выделяет:

анализ структуры и логики запроса на признаки многоступенчатого обхода;
проверку контекста беседы на попытку раскачать модель нарастающими подсказками;
сопоставление формулировок с известными шаблонами jailbreak-атак;
оценку потенциального ущерба от возможного ответа модели;
маршрутизацию сомнительных обращений на более консервативную Opus 4.8.

Эффективность нового барьера в Anthropic оценивают выше 99% для конкретного метода, найденного исследователями. Компания при этом честно признаёт, что редкие крохи данных пользователь ещё способен получить, но объём и уровень детализации уже не позволяют собрать из них практический инструмент атаки.

Разработчики отдельно оговаривают, что новые фильтры настраивались не против рутинных задач разработчиков и специалистов по защите информации. Прицел взят на запросы, чей результат способен реально навредить.

При срабатывании блокировки система уведомит пользователя, что работа перенаправлена на модель Opus 4.8. Такой манёвр сохраняет возможность решать безопасные задачи и одновременно закрывает доступ к рискованным вариантам применения свежей модели.

Побочный эффект у усиления есть, и в компании его не скрывают. Классификатор стал заметно осторожнее и порой воспринимает как подозрительные обычные запросы программистов — при отладке кода или поиске багов. Anthropic донастраивает алгоритмы, чтобы срезать долю ложных срабатываний и точнее отличать рабочие обращения от попыток злоупотребления.

Проверку новых механизмов уже провели специалисты Центра стандартов и инноваций в области искусственного интеллекта Министерства торговли США. По оценке Anthropic, оценщики высоко отозвались о результативности обновлённой системы фильтрации.

Сотрудничество с государственными структурами развивается сразу по нескольким направлениям. До полной отмены экспортных ограничений американские власти разрешили пользоваться Mythos 5 узкому кругу организаций, отвечающих за эксплуатацию и защиту объектов критической инфраструктуры. Anthropic рассчитывает постепенно расширять число участников программы Glasswing совместно с профильными ведомствами.

Уточняется, что цель совместной работы с Amazon, Microsoft, Google и другими партнёрами по Glasswing — выработать единые правила оценки jailbreak-атак и договориться о том, как считать серьёзность каждой находки.

В рамках этой инициативы участники обсуждают критерии универсальности методов обхода, шкалу тяжести уязвимостей и порядок реакции разработчиков моделей на подобные сигналы. Единая система координат должна ускорить закрытие проблем во всей отрасли, а не только у отдельного вендора.

Отдельная новая площадка появилась и для внешних исследователей. Anthropic запустила программу на HackerOne, куда специалисты по информационной защите смогут отправлять способы обхода Fable 5 напрямую разработчикам. Формат позволяет быстро проверять сообщения, выпускать патчи и укреплять встроенные механизмы до того, как найденные приёмы уйдут в дикую эксплуатацию.

Для рядовых пользователей возврат моделей означает несколько практических моментов, о которых стоит помнить:

Fable 5 снова доступна во всех продуктах Claude на подписочных тарифах;
на первую неделю работа модели включена в общий лимит подписки;
Mythos 5 остаётся продуктом для узкого круга организаций;
при подозрительном запросе диалог автоматически уходит к Opus 4.8;
о ложных срабатываниях можно сообщать через штатную обратную связь.

Апдейт заметно меняет и работу корпоративных команд. Инженерам по безопасности приложений придётся заново прогнать типовые сценарии через обновлённый классификатор, чтобы понять, где новая осторожность модели помешает привычным задачам. В компании обещают быстрые итерации и точечную настройку под жалобы разработчиков.

Отмечается, что программа HackerOne рассчитана не только на разовые находки, а на постоянный поток отчётов от внешних исследователей.

Anthropic делает ставку на модель непрерывного улучшения защиты. Каждое подтверждённое сообщение о новом методе обхода запускает цикл проверки, доработки классификатора и выпуска обновления, что должно сократить окно, в течение которого свежая уязвимость доступна злоумышленникам.

Ранее сообщалось, что Австрия предложила Евросоюзу начать стратегическое сотрудничество с компанией Anthropic для развития европейских технологий искусственного интеллекта. Государственный секретарь по цифровизации Александр Проэль выступил с инициативой пригласить разработчика моделей Claude к совместной работе с ЕС. Предложение прозвучало вскоре после того, как власти США ограничили доступ иностранных пользователей к наиболее современным ИИ-моделям Anthropic, что усилило дискуссию о необходимости развития собственных ИИ-компетенций в Европе.

Эксперты редакции CISOCLUB отмечают, что подход Anthropic задаёт ориентир для всей отрасли крупных языковых моделей. Быстрая пауза, публичный разбор проблемы и запуск открытой bug bounty-программы выглядят зрелой реакцией на реальную угрозу. Отдельно радует ставка на автоматический классификатор как самостоятельный контур защиты — это правильное архитектурное решение. Пользователям, впрочем, придётся смириться с ростом ложных срабатываний, пока модель дообучается на живом трафике. Совместная работа с Amazon, Microsoft и Google над общей методологией оценки jailbreak-атак способна превратить разрозненные частные практики в отраслевой стандарт, а это уже качественный сдвиг.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: