ARC Prize

1周前发布 34 00

由著名AI研究员弗朗索瓦·肖莱(François Chollet)共同创立的非营利组织Arc Prize基金会宣布,他们开发了一项名为ARC-AGI-2的新测试。这项测试旨在更准确地衡量领先AI模型的通用智能水平,然而,它却难倒了大多数现有的AI模型。

所在地:
美国
收录时间:
2025-03-25
ARC PrizeARC Prize

在AI领域,衡量AI模型的通用智能一直是研究者们关注的焦点。近日,由著名AI研究员弗朗索瓦·肖莱(François Chollet)共同创立的非营利组织Arc Prize基金会宣布,他们开发了一项名为ARC-AGI-2的新测试。这项测试旨在更准确地衡量领先AI模型的通用智能水平,然而,它却难倒了大多数现有的AI模型。

ARC Prize

ARC-AGI-2测试:AI模型的新挑战

ARC-AGI-2测试的难度之高,从目前的结果来看便可见一斑。根据Arc Prize排行榜显示,像OpenAI的o1-pro和DeepSeek的R1这样的“推理”AI模型,在ARC-AGI-2上的得分仅为1%至1.3%。而一些强大的非推理模型,例如GPT-4.5Claude 3.7 Sonnet和Gemini 2.0 Flash,得分也仅约为1%。这一结果表明,现有的AI模型在面对ARC-AGI-2测试时,表现并不理想。

ARC Prize

ARC-AGI测试由类似拼图的问题组成,AI需要从一组不同颜色的方块中识别视觉模式,并生成正确的“答案”网格。这些问题的设计初衷是迫使AI适应其未见过的新问题,从而更真实地反映其通用智能水平。为了建立人类基准,Arc Prize基金会邀请了超过400人参与ARC-AGI-2测试。结果显示,这些“测试小组”的平均正确率达到了60%,这一成绩远远超过了任何模型的得分。

ARC-AGI-2测试的改进之处

肖莱在X上的一篇帖子中表示,ARC-AGI-2比第一代测试ARC-AGI-1更能准确衡量AI模型的真实智能。Arc Prize基金会的测试旨在评估AI系统能否高效地获取训练数据之外的新技能,这一点在ARC-AGI-2中得到了更好的体现。

与ARC-AGI-1不同,新测试防止AI模型依赖“暴力破解”,即通过大量计算能力来寻找解决方案。肖莱此前曾承认,这是ARC-AGI-1的一个主要缺陷。为了解决这一问题,ARC-AGI-2引入了一个新指标:效率。它还要求模型即兴解释模式,而不是依赖记忆。Arc Prize基金会联合创始人格雷格·卡姆拉特(Greg Kamradt)在一篇博客文章中写道:“智能不仅仅体现在解决问题或取得高分的能力上。获取和部署这些能力的效率是一个至关重要的决定性因素。核心问题不仅是‘AI能否掌握解决任务的技能?’,还有‘以何种效率或成本做到这一点?’”

行业背景与展望

ARC-AGI-1在约五年的时间里未被击败,直到2024年12月OpenAI发布了其高级推理模型o3,该模型在评估中超越了所有其他AI模型并达到人类水平表现。然而,正如当时所指出的,o3在ARC-AGI-1上的性能提升伴随着高昂的代价。OpenAI的o3模型版本——o3 (low)——率先在ARC-AGI-1上取得新高度,得分为75.7%,但在ARC-AGI-2上使用每任务200美元的计算能力时仅获得4%的得分。

ARC-AGI-2的推出正值科技行业许多人呼吁采用新的、未饱和的基准来衡量AI进步之际。Hugging Face的联合创始人托马斯·沃尔夫(Thomas Wolf)最近对TechCrunch表示,AI行业缺乏足够的测试来衡量所谓人工通用智能的关键特性,包括创造力。

与此同时,Arc Prize基金会宣布了全新的Arc Prize 2025竞赛,挑战开发者在ARC-AGI-2测试中达到85%的准确率,同时每任务仅花费0.42美元。这一竞赛无疑将激励开发者们进一步探索和提升AI模型的通用智能水平,为人工智能的发展注入新的动力。

数据统计

相关导航

暂无评论

none
暂无评论...