Власти США за один вечер выключили самый мощный ИИ от Anthropic и оставили компанию без объяснений

Изображение: Aerps.com (unsplash)
Компания Anthropic отключила доступ к двум своим самым продвинутым моделям Claude Fable 5 и Claude Mythos 5 после экстренного предписания от американских регуляторов. Ограничение распространяется на всех иностранных пользователей вне зависимости от их местоположения, и под него попали даже сотрудники самой Anthropic без американского гражданства. Остальные модели компании при этом работают как обычно.
Уведомление пришло 12 июня в 17.21 по восточному времени США, и внятного объяснения причин в нём не было. В Anthropic считают, что распоряжение связано с информацией о возможном способе обхода защитных механизмов Fable 5. Чтобы выполнить требование, компания обнулила доступ к обеим моделям сразу для всех клиентов, а не только для иностранцев.
Демонстрацию предполагаемого обхода в Anthropic уже разобрали. По оценке разработчиков, найденный метод вытаскивает лишь пару давно описанных и не самых серьёзных уязвимостей в софте. Те же результаты, по словам компании, спокойно выдают и другие публичные ИИ-системы безо всяких хитрых приёмов.
К проверке Fable 5 до релиза подключились сразу несколько сторон.
- государственные структуры США;
- британский Институт безопасности ИИ;
- независимые исследовательские группы;
- внутренняя команда самой Anthropic.
Суммарно на испытания ушли тысячи часов работы, и за всё это время универсального способа обхода защиты специалисты так и не нашли. Под универсальным джейлбрейком понимают метод, который разом снимает ограничения модели и открывает доступ к широкому набору опасных возможностей.
Стоит обратить внимание, что более строгой защиты, чем у Fable 5, у компании до сих пор не было ни в одной модели.
Самые жёсткие защитные ограничения среди всех своих моделей Anthropic поставила как раз в Fable 5. Часть пользователей раньше даже ругалась на избыточную строгость, из-за которой не получалось решать вполне законные задачи.
Полной защиты от таких методов сегодня нет ни у одного поставщика ИИ, и в Anthropic это открыто признают. Почти любая современная модель теоретически может налететь на отдельные варианты обхода ограничений в узких ситуациях применения.
При разработке Fable 5 ставку сделали на многоуровневую оборону. Замысел был простой: максимально усложнить создание универсальных обходов и при этом постоянно отслеживать попытки атаковать модель.
Ради этого Anthropic поменяла даже собственную политику хранения данных.
- ввели обязательное 30-дневное хранение пользовательской активности при работе с Fable 5;
- собранные данные используют для поиска и блокировки потенциальных атак;
- компания признаёт, что бизнесу это добавляет неудобств;
- сам шаг разработчики называют вынужденным, но нужным.
Сильнее всего в Anthropic раздражает то, что развёрнутого технического разбора найденной проблемы компании так и не дали. На сегодня всё свелось к устным комментариям про возможный узкий способ обхода защиты.
Отмечается, что похожие возможности есть у ряда конкурирующих систем и каждый день применяются специалистами для поиска и устранения ошибок в коде.
Отчёт, который предположительно лёг в основу действий американских властей, в компании изучили. Продемонстрированный уровень возможностей, по их выводам, широко доступен и в других современных ИИ-моделях. Подобные инструменты давно стали рабочей рутиной для тех, кто ищет и латает дыры в чужом коде.
К самому методу обхода у разработчиков набралось несколько претензий.
- он вытаскивает лишь малое число давно известных уязвимостей;
- те же результаты выдают общедоступные модели без спецприёмов;
- доказательств универсального механизма обхода никто не предоставил;
- данных о реальном вреде от метода тоже нет.
Несмотря на несогласие с решением, Anthropic полностью выполнила юридические требования и вырубила доступ к обеим моделям. Тут же компания предупредила, что подобные меры рискуют создать опасный прецедент для всей отрасли.
Отзыв коммерческой модели из-за единичных и ограниченных способов обхода защиты способен сильно затормозить развитие индустрии ИИ. В такой ситуации под аналогичные ограничения может попасть практически любой поставщик передовых моделей, считают в компании.
Свою позицию по госконтролю Anthropic формулировала и раньше.
- компания не раз выступала за надзор над действительно опасными ИИ-системами;
- решения такого рода должны приниматься по прозрачным процедурам;
- в основе должны лежать технические факты и понятные правила;
- нынешнее распоряжение этим принципам, по мнению фирмы, не соответствует.
Сейчас разработчики выясняют обстоятельства произошедшего и надеются вернуть доступ к Fable 5 и Mythos 5 как можно скорее. Случившееся в компании называют недоразумением и обещают раскрыть детали после консультаций с государственными структурами.
Ранее мы писали о том, что генеральный директор Anthropic Дарио Амодеи выступил за усиление государственного контроля над развитием искусственного интеллекта. В интервью Bloomberg он предложил предоставить американским регуляторам право ограничивать или запрещать выпуск ИИ-моделей, которые могут представлять угрозу для общества или национальной безопасности. По мнению главы компании, разработчики передовых систем искусственного интеллекта должны проходить независимую оценку безопасности своих решений до их вывода на рынок.
Эксперты редакции CISOCLUB уверены, что произошедшее выходит далеко за рамки конфликта одной компании с регулятором. Прецедент, когда уже выпущенную и работающую модель выключают за считанные часы по требованию ведомства, меняет правила игры для всего рынка ИИ. Бизнес, который строил продукты вокруг конкретной модели, в любой момент рискует остаться без неё без права на апелляцию и без внятных причин.
Редакция полагает, что без прозрачной и предсказуемой процедуры такие отключения превратятся в инструмент давления, а не реальной безопасности. Сама идея государственного контроля над опасными системами выглядит разумной, вопрос лишь в том, как её применяют на практике. Команда CISOCLUB будет следить за развитием событий и расскажет, чем закончится противостояние Anthropic и американских властей.


