谷歌 AI Overviews 每小时输出数百万条错误信息

《纽约时报》联合 AI 初创公司 Oumi 发布的一项最新分析显示，尽管谷歌的 AI Overviews（由 Gemini 驱动的智能搜索摘要）在准确性上有所提升，但其 90% 的正确率意味着每 10 个答案中就有 1 个是错误的。考虑到谷歌每天处理的数十亿次搜索，这相当于每分钟都有数十万条错误信息被生成并展示给用户。

核心发现：从 85% 到 91% 的进步与局限

Oumi 使用 OpenAI 发布的 SimpleQA 基准测试（包含 4,000 多个有明确事实答案的问题）对 AI Overviews 进行了评估：

Gemini 2.5 时期：准确率为 85%。
Gemini 3 更新后：准确率提升至 91%。

虽然这一进步值得肯定，但在海量搜索规模下，9% 的错误率是一个惊人的数字。报告指出，如果将此错误率外推到所有谷歌搜索，AI Overviews 每天生成的错误答案数量高达数千万条。

典型错误案例

鲍勃·马利故居博物馆日期：AI 引用了三个来源，其中两个未提及日期，第三个（维基百科）存在矛盾年份，AI 自信地选择了错误的一个。
马友友与古典音乐名人堂：AI 引用了官网证明马友友入选的信息，却同时声称“古典音乐名人堂根本不存在”，自相矛盾。

争议焦点：谷歌的反驳与基准测试的困境

1. 谷歌的回应：“测试存在严重漏洞”

谷歌发言人 Ned Adriance 强烈反对该报告，理由包括：

数据质量问题：认为 SimpleQA 本身包含不正确信息。
场景不匹配：声称该测试未反映用户实际搜索行为。
内部标准不同：谷歌使用经过更严格审查的 SimpleQA Verified（规模更小）进行评估，且通常显示更高的事实性指标。

2. 评估的复杂性：艺术还是科学？

非确定性难题：生成式 AI 具有随机性，同一问题多次查询可能得到不同结果。
模型混合策略：AI Overviews 并非单一模型。为了速度和成本，谷歌通常使用更快的 Gemini Flash 而非最强的 Gemini 3.1 Pro。这意味着大多数用户看到的是“够用但非最佳”的答案。
AI 评估 AI：Oumi 使用 AI工具运行评估，而评估者本身也可能产生幻觉，形成循环验证风险。