19 июня

Скандал вокруг Mythos 5 превратился в создание революционного стандарта безопасности ИИ

Изображение: Aerps.com (unsplash)

Спор между администрацией США и Anthropic вокруг моделей Fable 5 и Mythos 5 перерос рамки обычного разбирательства о безопасности и превратился в попытку создать систему оценки опасности уязвимостей в ИИ-моделях. Совместная работа Белого дома и компании должна определить, в каких ситуациях государство получает право вмешиваться в работу разработчиков. О ходе переговоров сообщает Politico.

Переговоры начались после введения экспортных ограничений, поводом для которых стал найденный способ обхода защитных механизмов новейших моделей Anthropic. Метод открывал доступ к функциям, изначально закрытым разработчиками. Расхождение в оценке серьёзности этой находки и поссорило власти с компанией.

Администрация считала найденную брешь основанием для жёстких мер, тогда как руководство Anthropic смотрело на ситуацию спокойнее. Спор обнажил более глубокую проблему — у государственных структур попросту нет единой шкалы для подобных случаев, а ИИ-индустрия уходит вперёд гораздо быстрее, чем формируется регулирование вокруг неё.

Закрыть этот пробел должен фреймворк, обсуждаемый сейчас в Вашингтоне. Документ должен дать универсальный набор критериев для будущих случаев обхода защитных механизмов ИИ. Предполагается, что специалисты получат возможность оценивать:

глубину взлома и реальный уровень доступа к закрытым функциям;
набор возможностей модели, открывшихся после преодоления ограничений;
потенциальные последствия применения найденного метода;
степень воспроизводимости атаки сторонними исследователями;
угрозы для пользователей и инфраструктуры.

Со стороны Anthropic в переговорах участвуют руководитель по взаимодействию с государственными структурами Сара Хек и сооснователь компании Том Браун. Для разработчика тема имеет принципиальное значение, ведь одна из базовых позиций Anthropic состоит в том, что абсолютно неуязвимых ИИ-систем не бывает. Любая модель рано или поздно сталкивается с попытками обойти ограничения, поэтому весомым становится не сам факт взлома, а его масштаб и реальные последствия.

Стоит обратить внимание, что в Anthropic настаивают на оценке не самого факта взлома, а его реальных последствий и масштаба распространения метода.

Власти получают от новой системы формализованную шкалу рисков и понятный алгоритм принятия решений. Вместо субъективных перепалок между чиновниками и разработчиками появляется набор критериев, на который можно опереться при введении ограничений или иных регуляторных мер. Похожие идеи звучат и на международных площадках — на встречах G7 представители крупнейших ИИ-компаний и государственные лидеры неоднократно говорили о необходимости общих подходов к оценке рисков. Всё больше игроков рынка приходит к выводу, что определять допустимые границы развития технологий должны не только сами разработчики.

При этом сами ограничения пока никто не снимал. Несколько дней назад картина выглядела заметно мрачнее. По данным американских СМИ, ещё в конце прошлой недели стороны фактически свернули диалог. Anthropic отказывалась признавать уязвимость серьёзной проблемой и не собиралась ограничивать доступ к своим моделям. После этого администрация и ввела экспортный контроль.

Затем переговоры внезапно ожили. За выходные представители Anthropic и правительства провели серию длинных телефонных консультаций. В обсуждениях участвовали:

сооснователь компании Том Браун;
министр торговли США Говард Латник;
директор по вопросам киберпространства Шон Кэрнкросс;
профильные сотрудники Министерства торговли;
эксперты по вопросам национальной безопасности.

Дальше встречи продолжились уже очно в Вашингтоне. Руководство Anthropic осторожно начало сигнализировать о возможном скором завершении кризиса. Управляющий директор компании по международному направлению Крис Циаури во время пресс-конференции в Сеуле сообщил, что Anthropic рассчитывает на быстрое возвращение своих наиболее мощных моделей. По его словам, компания сохраняет высокую уверенность в том, что доступ удастся восстановить в ближайшее время.

Интересно, что мероприятие в Сеуле было посвящено открытию офиса Anthropic в Южной Корее, но журналисты переключились исключительно на судьбу Fable 5 и Mythos 5.

Представителям компании пришлось отвечать на многочисленные вопросы о регулировании ИИ, экспортных ограничениях и участии корейских организаций в Project Glasswing. Значительную часть комментариев в компании предпочли не раскрывать. Через сутки похожие сигналы прозвучали от сооснователя Anthropic Джека Кларка. В интервью Bloomberg он рассказал, что переговоры с администрацией Дональда Трампа идут ежедневно. По словам Кларка, компания и государство пытаются найти решение, которое снимет обеспокоенность вокруг новых моделей и одновременно учтёт вопросы национальной безопасности.

Сама история стартовала 9 июня, когда Anthropic представила Fable 5 и закрытую модель Mythos 5. Через 3 дня Министерство торговли США ограничило доступ к ним для иностранных пользователей. Технических механизмов мгновенно отделить иностранцев от граждан США у компании нет, поэтому доступ был отключён фактически для всей аудитории. Формальным поводом стал найденный метод обхода ограничений, при котором модель использовалась для анализа программного кода и поиска потенциальных уязвимостей. Оценка опасности этого механизма до сих пор остаётся предметом спора между разработчиками и государством.

При всём оптимизме руководства Anthropic, вопрос сроков остаётся открытым. Прогнозы исходят исключительно от самой компании. Американские власти конкретных дат не называют. Более того, ранее представители администрации в беседах с журналистами упоминали сроки в несколько недель, а отдельные встречи в Министерстве торговли завершались без заметного прогресса.

Даже если доступ действительно восстановят, процесс, скорее всего, окажется поэтапным. По информации американских изданий, первыми возможность работать с моделями получат пользователи внутри США, тогда как международная аудитория может столкнуться с отдельными ограничениями. Возвращение Fable 5 и Mythos 5 сегодня выглядит уже не техническим вопросом, а частью более крупного эксперимента по созданию правил для будущего ИИ.

Ранее мы писали о том, что более 50 специалистов по информационной безопасности подписали открытое письмо против экспортных ограничений, введённых США в отношении моделей Anthropic Fable 5 и Mythos 5. После вступления запрета в силу 12 июня компания была вынуждена полностью отключить обе модели для всех пользователей. Авторы обращения заявили, что такие меры наносят ущерб исследованиям в области кибербезопасности, а профессиональное сообщество расценило блокировку как удар по развитию отрасли защиты информации и анализу современных угроз.

Редакция CISOCLUB уверена, что нынешний конфликт вокруг Fable 5 и Mythos 5 — это репетиция будущего регулирования всей отрасли искусственного интеллекта. Эксперты редакции сходятся во мнении, что формализованная шкала оценки уязвимостей рано или поздно появится, и работа Anthropic с Белым домом задают для неё фактический шаблон. Подобный механизм нужен сразу обеим сторонам — государству для предсказуемых решений, разработчикам для защиты от внезапных запретов. При этом эксперты редакции обращают внимание на риск превращения шкалы в инструмент давления на отдельных игроков рынка. Прозрачность критериев и независимая экспертиза станут проверкой на прочность всей новой системы. От того, насколько сбалансированным получится фреймворк, зависит будущее не только Anthropic, но и десятков других ИИ-разработчиков.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: