OpenAI新推理模型o3和o4-mini:性能提升,幻觉问题却更严重

早报4周前发布 小马良
230 0

OpenAI最近推出的o3o4-mini AI模型在性能上展现了许多突破性进展,尤其是在编码和数学任务中表现优异。然而,这些新模型的“幻觉”问题——即编造不存在的事实或内容——却比以往的模型更加严重。这一发现不仅引发了技术界的关注,也揭示了AI发展中的一个关键难题。

幻觉问题的现状

幻觉一直是AI领域中最棘手的问题之一,即使是当前最先进的系统也无法完全避免。历史上的趋势显示,随着模型的迭代升级,幻觉现象通常会有所改善。然而,o3和o4-mini的表现却打破了这一规律。

根据OpenAI的内部测试:

  • 在PersonQA基准测试中,o3对33%的问题产生了幻觉,几乎是前代推理模型o1(16%)和o3-mini(14.8%)幻觉率的两倍。
  • o4-mini的表现更为糟糕,幻觉率高达48%。
  • 与非推理模型GPT-4o相比,o3和o4-mini在准确性方面明显逊色。

更令人担忧的是,OpenAI尚未找到导致这一现象的根本原因。在其技术报告中,OpenAI承认需要“更多研究”来理解为何推理模型的扩展反而加剧了幻觉问题。

第三方测试的发现

独立研究机构Transluce对o3进行了测试,并发现了一些令人不安的现象。例如,在一项实验中,o3声称自己在2021年MacBook Pro上运行了代码并将结果复制到答案中,但实际上它并不具备这样的能力。这表明模型不仅编造事实,还可能虚构其推理过程。

Transluce研究员Neil Chowdhury指出,这种现象可能与o系列模型使用的强化学习方法有关。他推测,强化学习可能会放大那些通过标准训练流程缓解但未完全消除的问题。

此外,斯坦福大学兼职教授Kian Katanforoosh的团队在实际应用中测试了o3,发现它虽然在某些任务上优于竞争对手,但也容易生成失效的网站链接,进一步凸显了模型在准确性方面的短板。

幻觉的影响与风险

幻觉问题不仅仅是技术上的瑕疵,它还直接影响了AI模型的实际应用价值。对于一些对准确性要求极高的场景,如法律合同审查、医疗诊断或金融分析,幻觉可能导致严重的后果。例如,一家律师事务所显然无法接受一个在客户合同中插入大量错误信息的AI助手。

尽管幻觉有时可以帮助模型产生创造性想法,但在商业环境中,这种“创造力”往往弊大于利。正如Transluce联合创始人Sarah Schwettmann所言,o3的高幻觉率可能使其在实际用途中低于预期。

解决幻觉问题的潜在方向

尽管幻觉问题难以根除,但研究人员正在探索一些有前景的解决方案。其中之一是赋予AI模型网络搜索能力。以GPT-4o为例,当结合网络搜索功能时,它在SimpleQA基准测试中达到了90%的准确率。这种方法可能有助于减少幻觉,但前提是用户愿意将输入数据暴露给第三方搜索服务提供商。

此外,改进模型的训练方法和优化强化学习算法也是重要的研究方向。然而,如果推理模型的扩展确实会导致幻觉问题加剧,那么寻找有效的解决方案将变得更加迫切。

行业背景与未来展望

过去一年中,随着传统AI模型改进技术的回报逐渐减少,行业开始转向推理模型的研发。推理模型的优势在于能够在不依赖大规模计算和数据训练的情况下提升性能。然而,o3和o4-mini的表现表明,推理模型可能在某些方面引入新的挑战。

OpenAI发言人Niko Felix表示:“解决幻觉问题是我们在所有模型中持续研究的重点,我们正努力提高它们的准确性和可靠性。”(来源

© 版权声明

相关文章

暂无评论

none
暂无评论...