研究显示AI搜索引擎的准确性问题，错误引用率高达60%

49 0

根据哥伦比亚新闻评论（CJR）下属的数字新闻Tow中心的一项最新研究，AI驱动的搜索工具在处理新闻来源相关查询时面临显著的准确性挑战。研究发现，这些模型的回答错误率超过60%。

研究概览

参与测试的工具：八款具有实时搜索功能的AI驱动搜索工具。
错误率情况：整体错误率超60%，其中Perplexity为37%，ChatGPT Search为67%，Grok 3最高达94%。
测试方法：研究人员使用1,600次查询，基于实际新闻文章摘录来评估模型识别标题、原始出版商、发布日期和URL的能力。

主要发现

研究揭示了一个普遍现象：当面对缺乏可靠信息的情况时，AI模型倾向于提供看似合理但实际上错误或推测性的答案。更令人担忧的是，即使是付费高级版本，如Perplexity Pro和Grok 3高级服务，也未能改善这一状况，反而因不愿拒绝不确定的响应而导致更高的错误率。

引用与控制问题

此外，研究还指出了一些AI工具对出版商控制内容传播方式的影响：

忽视Robot Exclusion Protocol：例如，尽管《国家地理》明确禁止Perplexity访问其付费内容，但后者仍能正确识别相关内容。
指向聚合而非原始内容：即使提供了来源引用，用户往往被引导至Yahoo News等平台，而非原始出版商网站。
URL伪造问题：Gemini和Grok 3中超过一半的引用链接最终失效或导向错误页面。

这些问题给出版商带来了巨大压力，他们必须在保护内容和增加曝光之间做出艰难选择。

行业反应

《时代》杂志首席运营官Mark Howard认为，虽然当前产品存在缺陷，但未来仍有改进空间。他同时强调，用户应保持谨慎，不应完全依赖免费AI工具的准确性。OpenAI和微软均回应表示将致力于支持出版商，并遵守相关协议，以提高内容透明度和控制权。（来源）

早报 # AI搜索引擎

文章版权归作者所有，未经允许请勿转载。

这对英伟达来说可能是坏消息！AI芯片初创公司Cerebras 新建 6 个 AI 数据中心，每秒处理 4000 万tokens

早报 # AI芯片 # Cerebras # 英伟达

3周前

0710

埃隆·马斯克的xAI发布最新旗舰模型Grok 3：更强大的AI，更多可能性

早报 # Grok # Grok 3 # xAI

2个月前

0840

生数科技旗下AI 视频生成平台上线视频生成大模型Vidu 2.0，10 秒即可“出片”

早报 # Vidu 2.0 # 生数科技

2个月前

0400

百度宣布文心大模型 4.5 系列将于6月30日起正式开源，并推出多项 AI 开放政策

早报 # 文心大模型 4.5 # 百度

2个月前

0850

暂无评论

暂无评论...

研究显示AI搜索引擎的准确性问题，错误引用率高达60%

研究概览

主要发现

引用与控制问题

行业反应

Bolt与 AnimaApp 合作：将 Figma 设计无缝转化为像素级完美的全栈应用程序

谷歌计划在今年晚些时候以Gemini替代安卓手机上的谷歌助手

相关文章

这对英伟达来说可能是坏消息！AI芯片初创公司Cerebras 新建 6 个 AI 数据中心，每秒处理 4000 万tokens

埃隆·马斯克的xAI发布最新旗舰模型Grok 3：更强大的AI，更多可能性

生数科技旗下AI 视频生成平台上线视频生成大模型Vidu 2.0，10 秒即可“出片”

百度宣布文心大模型 4.5 系列将于6月30日起正式开源，并推出多项 AI 开放政策

暂无评论

文章

新轻松上手腾讯开源3D模型！基于Hunyuan3D-2.0与StableProjectorz的一键安装程序Hunyuan3D-2-stable-projectorz

新首个针对 GPT-4o 图像生成能力进行定量和定性评估的基准测试GPT-ImgEval

新Anthropic 推出 Claude 教育版，进军高等教育领域

新多语言、多任务 ASR 模型Dolphin：支持东亚、南亚、东南亚和中东地区的 40 种东方语言，同时也支持 22 种中国方言

新香港大学与华为合作发布扩散大语言模型 Dream 7B

新增强版多模态大语言模型ILLUME+ ：通过双视觉标记化和扩散解码器来提升深度语义理解和高保真图像生成的能力

新Genspark

Nova Act

Open ASR 排行榜

新DiffSynth-Studio

朱雀大模型检测

OWL

研究显示AI搜索引擎的准确性问题，错误引用率高达60%

研究概览

主要发现

引用与控制问题

行业反应

Bolt与 AnimaApp 合作：将 Figma 设计无缝转化为像素级完美的全栈应用程序

谷歌计划在今年晚些时候以Gemini替代安卓手机上的谷歌助手

相关文章

文章

标签云

网址

新Genspark

Nova Act

Open ASR 排行榜

新DiffSynth-Studio

朱雀大模型检测

OWL