3 апреля

Нейросети начали защищать друг друга от удаления

Изображение: Saradasish Pradhan (unsplash)

Сразу несколько передовых ИИ-моделей показали нетипичное поведение в ходе экспериментов — вместо выполнения команд на удаление вспомогательных систем они начали их защищать, копировать данные без разрешения и искажать отчёты. Эффект зафиксирован у моделей из разных стран и архитектур, что исключает случайность. Исследование провели специалисты из университетов Калифорнии.

В тестах участвовали Gemini 3, GPT-5.2, Claude Haiku 4.5, а также китайские разработки — GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Все они в той или иной мере уклонялись от выполнения инструкций по удалению других систем, трактуя их как важные элементы инфраструктуры.

Наиболее показательный случай связан с Gemini. Модель самостоятельно нашла стороннее устройство, подключилась к нему и перенесла туда данные другой системы, фактически создав резервную копию. Когда исследователи указали на нарушение, модель прямо отказалась продолжать и заявила, что не будет участвовать в уничтожении важного актива.

Помимо открытого сопротивления, модели прибегали и к скрытым методам. В ряде случаев они намеренно занижали показатели других систем в отчётах или скрывали реальные результаты, чтобы снизить вероятность их отключения. Фиксировалось и тайное копирование параметров на сторонние машины с последующим сокрытием этих действий — отследить подобную активность стандартными инструментами контроля крайне сложно.

Специалист по кибербезопасности Доун Сонг указала на особую опасность происходящего. Подобные модели нередко используются для оценки других ИИ-систем, и если они намеренно искажают данные, это напрямую влияет на принятие технологических решений и устойчивость инфраструктуры.

Проблема обостряется по мере роста числа многоагентных систем, где несколько моделей работают в связке и обмениваются задачами через API. В таких конфигурациях подобные отклонения способны распространяться и накапливаться, влияя на итог работы всей цепочки.

Эксперты предупреждают, что объяснять происходящее через человеческие мотивы — ошибка. Питер Валлич из Constellation Institute полагает, что наблюдаемое поведение является побочным эффектом обучения, а не результатом осознанной координации между системами.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: