Meta原版Llama-4-Maverick模型在基准测试中大翻车

249 0

本周，Meta因使用未经发布的实验版Llama 4 Maverick模型在众包基准测试平台LM Arena上获得高分而引发争议。这一事件不仅促使LM Arena的维护者公开道歉并调整政策，还让未经修改的原版Maverick模型暴露了其实际性能。

经过重新评估，结果清晰地表明：原版Maverick模型的表现并不具备竞争力。

截至周五，未经修改的“Llama-4-Maverick-17B-128E-Instruct”在LM Arena上的排名显著低于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等知名模型，甚至不如Deepseek-v2.5。这些竞争对手的模型大多已经发布数月，经过广泛测试和优化，展现了更强的实际能力。

为什么原版Maverick表现不佳？

Meta上周六发布的一张图表揭示了关键原因。图表显示，其实验版Maverick模型“Llama-4-Maverick-03-26-Experimental”经过了特定优化，以提升对话能力。这些优化显然对LM Arena的测试环境非常友好——该测试主要依赖人类评分者比较模型输出，并选择他们偏好的结果。

然而，这种针对特定基准测试的优化虽然能在短期内提高分数，却可能导致模型在其他场景下的表现不够稳定或可靠。正如我们之前所分析的，LM Arena从来不是一个衡量AI模型综合性能的理想标准。它更注重主观偏好，而非模型的实际通用性和适应性。

此外，Meta的一位发言人在接受TechCrunch采访时也承认，公司会尝试“各种类型的定制变体”。发言人表示：“‘Llama-4-Maverick-03-26-Experimental’是我们试验的一个优化聊天版本，它在LM Arena上表现良好。我们现已发布开源版本，期待开发者根据自己的用例进行定制，并提供反馈。”