Meta原版Llama-4-Maverick模型在基准测试中大翻车

早报3个月前发布 小马良
149 0

本周,Meta因使用未经发布的实验版Llama 4 Maverick模型在众包基准测试平台LM Arena上获得高分而引发争议。这一事件不仅促使LM Arena的维护者公开道歉并调整政策,还让未经修改的原版Maverick模型暴露了其实际性能。

经过重新评估,结果清晰地表明:原版Maverick模型的表现并不具备竞争力。

截至周五,未经修改的“Llama-4-Maverick-17B-128E-Instruct”在LM Arena上的排名显著低于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等知名模型,甚至不如Deepseek-v2.5。这些竞争对手的模型大多已经发布数月,经过广泛测试和优化,展现了更强的实际能力。

Meta原版Llama-4-Maverick模型在基准测试中大翻车

为什么原版Maverick表现不佳?

Meta上周六发布的一张图表揭示了关键原因。图表显示,其实验版Maverick模型“Llama-4-Maverick-03-26-Experimental”经过了特定优化,以提升对话能力。这些优化显然对LM Arena的测试环境非常友好——该测试主要依赖人类评分者比较模型输出,并选择他们偏好的结果。

然而,这种针对特定基准测试的优化虽然能在短期内提高分数,却可能导致模型在其他场景下的表现不够稳定或可靠。正如我们之前所分析的,LM Arena从来不是一个衡量AI模型综合性能的理想标准。它更注重主观偏好,而非模型的实际通用性和适应性。

此外,Meta的一位发言人在接受TechCrunch采访时也承认,公司会尝试“各种类型的定制变体”。发言人表示:“‘Llama-4-Maverick-03-26-Experimental’是我们试验的一个优化聊天版本,它在LM Arena上表现良好。我们现已发布开源版本,期待开发者根据自己的用例进行定制,并提供反馈。”

© 版权声明

相关文章

暂无评论

none
暂无评论...