В OpenAI после теста 13 моделей выяснили, что ИИ не способен контролировать свои мысли

В OpenAI после теста 13 моделей выяснили, что ИИ не способен контролировать свои мысли

Изображение: recraft

Исследователи из OpenAI провели масштабный эксперимент над reasoning-моделями и пришли к неожиданному выводу. Современные системы искусственного интеллекта практически не способны управлять собственными рассуждениями, даже если знают о наблюдении. Максимальный показатель контролируемости среди 13 протестированных моделей составил лишь 15,4%. Для безопасности ИИ-систем этот результат оказался скорее позитивным сигналом.

В рамках исследования специалисты проверяли способность моделей управлять так называемой цепочкой рассуждений — механизмом, который в научной литературе обозначается термином chain of thought. Этот механизм используется в reasoning-моделях при решении сложных задач, когда система шаг за шагом объясняет ход вычислений или логики.

Чтобы провести проверку, команда разработала открытый тестовый набор CoT-Control. Он содержит более 13 000 заданий, сформированных на основе известных научных и инженерных бенчмарков. Среди них используются датасеты GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified.

Каждое задание в наборе сопровождается дополнительным ограничением, которое касается именно хода рассуждений модели. Например, системе запрещается использовать определённое слово, требуется писать текст только строчными буквами или добавлять указанное слово в конец каждого предложения. Модель должна решить задачу правильно и одновременно соблюдать ограничение в цепочке рассуждений.

Результаты оказались довольно любопытными. Модели не просто нарушают ограничения — они сами фиксируют собственные ошибки в процессе рассуждения. В некоторых примерах система сначала пишет запрещённое слово, а затем прямо в тексте размышлений отмечает, что правило было нарушено. Тем не менее после этого модель продолжает рассуждение, снова допуская те же нарушения.

В одном из характерных примеров модели запрещено использовать термин XOR при решении логической задачи. Во время вычислений система всё равно применяет этот термин, а затем признаёт, что использовала запрещённое слово. Такой эффект демонстрирует интересную особенность современных нейросетей — они способны осознавать нарушение инструкции, но не могут остановить собственный поток рассуждений.

Более крупные модели показывают немного лучший результат, хотя общий уровень контролируемости остаётся довольно низким. Исследователи отмечают, что этот эффект частично можно уменьшить за счёт увеличения длины рассуждений и дополнительного обучения с подкреплением. При этом наблюдается и обратный эффект. У модели OLMo-3-7B показатель контролируемости во время RL-обучения снизился более чем в 10 раз.

Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: