9 апреля

ИИ-режим поиска Google даёт миллионы неточных ответов при высокой общей точности

Изображение: Nathana Rebouças (unsplash)

Функция AI Overviews в поиске Google правильно отвечает примерно в 90% случаев, но из-за колоссального объёма запросов даже такой показатель оборачивается десятками миллионов некорректных ответов ежедневно. К такому выводу пришли журналисты The New York Times совместно со стартапом Oumi, протестировавших систему на бенчмарке SimpleQA от OpenAI с более чем 4000 проверяемых вопросов.

При использовании Gemini 2.5 точность составила около 85%, после перехода на Gemini 3 выросла с 85% до 91%.

В ходе проверки обнаружились проблемы с тем, как система объединяет данные из разных источников. Один из примеров — неверное определение даты превращения дома Боба Марли в музей, хотя корректные сведения присутствовали в исходных материалах.

Это указывает на сложности не с поиском информации, а с её интерпретацией и выбором нужного факта среди нескольких источников.

В Google с выводами не согласились. Представитель компании Нед Адрианс заявил, что сам бенчмарк SimpleQA может содержать неточности и не отражает реальные пользовательские запросы. По его словам, надёжнее ориентироваться на набор SimpleQA Verified, где вопросы проходят дополнительную проверку, а методика исследования не учитывает специфику реального поиска.

Суть происходящего при этом остаётся неизменной — чем шире масштаб применения любой ИИ-системы, тем весомее становится каждый процент ошибок, и единичные сбои на таком уровне неизбежно превращаются в массовое явление.

Автор: Артем

Представитель редакции CISOCLUB. Пишу новости, дайджесты, добавляю мероприятия и отчеты.

Комментарии: