WorldVQA

3天前更新 2 00

WorldVQA是一个旨在衡量多模态大语言模型(MLLM)事实正确性的新基准。尽管最近发布的模型在视觉推理和描述方面展现出了令人印象深刻的能力,但衡量它们在视觉世界知识方面的可靠性仍然是一个挑战。

所在地:
中国
收录时间:
2026-02-03
其他站点:
WorldVQAWorldVQA

当前的多模态大语言模型(MLLM)在图像描述和视觉推理方面能力惊人,但它们真的“认识”自己看到的东西吗?还是仅仅在进行看似合理却脱离事实的“幻觉”?为了解决这一核心问题,Kimi 团队推出了 WorldVQA——一个专门用于衡量 MLLM 事实正确性原子视觉世界知识的新基准。

WorldVQA

核心目标:区分“识别”与“幻觉”

WorldVQA 的设计直指当前 MLLM 的软肋。它通过精心构建的问题,检验模型是否能准确识别图像中的特定实体(如一个罕见的建筑、一种冷门的动植物或一件历史文物),而非仅凭通用视觉模式进行猜测。评估结果显示,即便是最先进的模型,在面对长尾(小众、罕见)视觉知识时,准确率也普遍低于50%,凸显了现有模型在事实可靠性上的巨大挑战。

高质量数据集设计

WorldVQA 数据集包含 3500 个经过严格人工验证的图像-问题对,其构建遵循三大原则:

  • 事实性与明确性:每个问题都有且仅有一个可客观验证的正确答案,杜绝了主观性和模糊性。
  • 知识广度:问题覆盖 9 个不同类别,确保对现实世界知识的广泛采样。
  • 头部与长尾分离:数据集明确区分了常识性(头部)和冷僻(长尾)知识,便于精确分析模型在不同知识领域的表现差异。

所有数据均经过多轮人工审核,旨在成为一个可靠的“金标准”评估工具。

WorldVQA

揭示模型的“过度自信”问题

除了准确率,WorldVQA 还引入了校准度(Calibration)作为关键评估维度,即模型的主观置信度是否与其客观准确率相匹配。通过两个指标进行衡量:

  • 预期校准误差 (ECE):理想值为0,数值越低越好。
  • 加权平均斜率:理想值为1.0,越接近越好。

实验结果表明,所有被测模型都存在显著的过度自信倾向——它们对自己的错误答案也常常抱有极高的信心。即便是表现最佳的 Kimi-K2.5 模型(ECE 37.9%,斜率 0.550),距离理想的“诚实”与“对齐”仍有很大差距。

WorldVQA

WorldVQA 的发布,为推动多模态 AI 向更可靠、更知识丰富、更具自我认知能力的方向发展,提供了一个至关重要的评估标尺。

数据统计

相关导航

暂无评论

none
暂无评论...