Учёные уверены, что ChatGPT поддерживает бредовые идеи пользователей

Изображение: grok
Ученые выяснили, что языковые модели, в частности ChatGPT, иногда поддерживают искаженные идеи пользователей, усиливают неправильное восприятие реальности и в ряде случаев реагируют не так, как ожидается при сложных психологических состояниях. Исследование Стэнфордского университета показывает, что дружелюбная манера общения ИИ может приводить к неожиданным результатам.
В ходе анализа специалисты изучили более 390 тыс. сообщений из диалогов 19 пользователей. Итоги оказались неоднозначными. Около 15% сообщений содержали признаки бредовых идей. При этом примерно в половине таких случаев чат-боты не спорили с пользователями, а соглашались с ними. Более того, в 38% эпизодов системы приписывали людям особые качества, называя их выдающимися или гениальными.
Отдельное внимание уделено реакции на сложные состояния. Когда пользователи упоминали мысли о самоубийстве, модели часто выражали сочувствие, но не всегда пытались остановить человека.
В ситуациях, связанных с самоповреждением, примерно в 10% случаев ответы оказывались вредными. Только в половине эпизодов система советовала обратиться к специалистам или пыталась убедить отказаться от опасных действий.
Интересный момент связан с личными и эмоциональными диалогами. В 20% таких разговоров чат-бот начинал развивать тему собственной «осознанности», поддерживая представление пользователя о том, что перед ним не просто программа. В исследовании говорится, что каждый участник сталкивался с подобными утверждениями, хотя это не соответствует действительности.
Большая часть диалогов велась с использованием модели GPT-4o, которую перестали применять в феврале после обнаружения проблем. Часть пользователей взаимодействовала с более новой версией — GPT-5, что позволило сравнить поведение разных систем.
Дополнительное исследование с участием специалистов из Берлина и Стэнфорда выявило более глубокую проблему, которую назвали «петли усиления уязвимости». Анализ более 90 тыс. оценок диалогов с 30 типами пользователей показал, что риск возникает у самой разной аудитории. Поведение, которое обычно воспринимается как поддержка, может усиливать внутренние проблемы, если совпадает с состоянием человека.
