LMArena 最新排名出炉!阿里千问杀入全球前五,Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

早报4小时前发布 小马良
3 0

全球最受关注的大模型盲测榜单 LMArena(由 LMSYS Org 组织)更新了最新一期排名。阿里巴巴最新旗舰模型预览版 Qwen3.5-Max-Preview 首度亮相,便以 1464 分 的综合成绩惊艳全场。

这一成绩不仅让它超越了 GPT-5.4Grok-4.1 等海外顶级模型,也大幅领先于 豆包 2.0GLM-5Kimi 2.5 等所有国产竞品,成功问鼎 中国最强模型

与此同时,在基于各公司最强模型进行的“全球大模型机构排名”中,阿里凭借千问系列的强劲表现,排名上升至 全球第五,稳居 中国公司首位。字节跳动、智谱 AI、月之暗面、百度等中国厂商也一同闯入全球前十,展现出中国 AI 力量的集体崛起。

LMArena 最新排名出炉!阿里千问杀入全球前五,Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

🏆 核心战绩:硬实力说话

LMArena 被誉为大模型界的“竞技场”,其评测机制采用 匿名盲测:模型两两对战,由全球开发者真实投票决定胜负。这种“开放式对战 + 人工评估”的方式,被业界视为目前最具参考价值的性能评测之一。

在本次评测中,Qwen3.5-Max-Preview 的表现可谓全面开花:

  • 综合得分1464 分,排名中国第一。
  • 绝对胜率(Without Style Control):排名 全球第六,证明其在无修饰情况下的真实硬核实力。
  • 数学能力:排名 全球第五,展现了强大的逻辑推理与计算功底。
  • 专家级文本处理:排名 全球第十,在长文档理解、专业写作等领域达到世界顶尖水平。

里程碑意义:这是千问 3.5 系列首次以 旗舰级模型 身份参与国际第三方评测,标志着阿里在大模型高端领域的竞争力已得到全球开发者的广泛认可。

🚀 千问 3.5 家族:全尺寸覆盖,架构创新

自今年除夕发布以来,阿里千问 Qwen3.5 系列已陆续开源了 8 款 不同参数规模的模型,覆盖从 0.8B 到 397B 的全场景需求。各尺寸模型均在同量级中取得了领先性能。

此次亮相的 Qwen3.5-Max-Preview 是该系列的“皇冠明珠”——旗舰模型的预览版。

  • 架构亮点:虽然 Max 版本的具体参数未完全披露,但同系列的 Qwen3.5-Plus 已展示了强大的架构设计:总参数 3970 亿,激活参数仅 170 亿。这种混合专家(MoE)架构,以较小的激活成本实现了超越部分更大参数模型的性能。
  • 持续进化:作为预览版,Qwen3.5-Max-Preview 将根据社区反馈持续优化。据悉,正式版 或将于近期发布,能力将进一步进化升级。
  • 开源策略:按照以往惯例,Qwen3.5 系列中的中小尺寸模型(如 0.8B-397B)将保持开源,而最强的 Max 版本预计将不开放开源,主要通过 API 或云端服务提供。
LMArena 最新排名出炉!阿里千问杀入全球前五,Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

🌍 格局生变:中国力量集体突围

本次 LMArena 排名的更新,释放了一个明确信号:全球大模型竞争已进入“多极化”时代。

  • 阿里领跑:凭借 Qwen3.5-Max-Preview 的强势表现,阿里确立了中国大模型的领头羊地位。
  • 群英荟萃:除阿里外,字节跳动(豆包)智谱 AI(GLM)月之暗面(Kimi)百度(文心) 等 4 家中国公司也成功闯入全球前十。
  • 全球前五占其一:在全球大模型机构排行榜前十名中,中国公司占据 5 席,阿里更是唯一进入 全球前五 的中国企业。
© 版权声明

相关文章

暂无评论

none
暂无评论...