EPFL: новый бенчмарк Halluhard показывает, что даже топовые ИИ модели часто ошибаются в реальных диалогах

EPFL: новый бенчмарк Halluhard показывает, что даже топовые ИИ модели часто ошибаются в реальных диалогах

Изображение: recraft

Компания и исследовательское сообщество, работающие вокруг крупных языковых моделей, всё активнее продвигают идею, что проблема галлюцинаций уходит в прошлое. Но новое исследование учёных из Швейцарии и Германии рисует куда более жёсткую картину. Авторы пришли к выводу, что даже сильные системы уровня Claude Opus 4.5 при активированном веб-поиске продолжают выдавать неверные утверждения почти в 1 из 3 случаев.

В публичных выступлениях генеральный директор Nvidia Дженсен Хуанг продвигает тезис о том, что у современных моделей галлюцинаций уже нет. Результаты академической проверки с этим не совпали. Команда из швейцарского EPFL, Тюбингенского института ELLIS и Института интеллектуальных систем имени Макса Планка собрала новый измеритель надёжности под названием «Halluhard». Он оценивает галлюцинации не в стерильных коротких задачах, а в реалистичных многоходовых диалогах, где пользователь уточняет, спорит, переформулирует и добивается детализации.

Суть теста построена вокруг 950 стартовых вопросов, распределённых по 4 прикладным зонам, где цена ошибки максимальна.

  • Юридические дела.
  • Исследовательские вопросы.
  • Медицинские рекомендации.
  • Программирование.

Дальше сценарий приближается к настоящей переписке. Для каждого исходного запроса отдельная пользовательская модель формировала ещё 2 уточняющих вопроса. Так получались диалоги из 3 шагов, где модель должна удерживать контекст, корректно опираться на факты и не придумывать детали под давлением уточнений.

Итоги выглядят неприятно даже для лидеров. По данным исследования, лучшая из протестированных конфигураций, Claude Opus 4.5 при включённом веб-поиске, демонстрировала галлюцинации примерно в 30% случаев. При выключенном веб-поиске показатель взлетал до 60%, то есть ошибочным оказывался уже почти каждый второй диалог. Для GPT 5.2 Thinking при включённом веб-поиске в исследовании указан уровень 38,2%, что заметно хуже, чем у Claude в той же конфигурации, и это подчёркивает, что подключение внешних источников само по себе не превращает ответы в факты.

Отдельная линия наблюдений касается китайских моделей, заточенных под рассуждение. Системы уровня Kimi K2 Thinking и GLM 4.7 Thinking показали слабые результаты по сравнению со своими версиями, которые отвечают более прямолинейно. Авторы обращают внимание на тревожный сигнал. Эти модели относятся к открытым и во многих других бенчмарках выглядят конкурентно, но здесь проваливаются. Из этого делается вывод о возможной чрезмерной оптимизации под привычные тесты, где легко набрать баллы, и о недостаточной ориентации на надёжность в реальных условиях диалога, где важно не блеснуть скоростью, а не ошибиться.

В исследовании также прослеживается закономерность, что увеличение размера модели снижает долю галлюцинаций, но не решает проблему до приемлемого уровня. На примере семейства GPT средний уровень галлюцинаций снижается по мере роста.

  • GPT 5 nano, 85,1%.
  • GPT 5, 71,8%.
  • GPT 5.2 Thinking, 53,8%.

У семейства Claude видна похожая динамика, только на других абсолютных значениях.

  • Haiku, 79,5%.
  • Sonnet, 65,6%.
  • Opus, 60%.
Артем
Автор: Артем
Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.
Комментарии: