MiniMax 发布 MiniMax M2:面向编码与代理的高性能开源 MoE 模型

MiniMax 团队正式发布 MiniMax M2 —— 一款专为代码生成与 AI 代理工作流优化的混合专家(Mixture-of-Experts, MoE)模型。该模型以 MIT 开源许可 在 Hugging Face 上发布,总参数量 2290 亿,但每 token 仅激活 约 100 亿参数,在保证性能的同时,显著降低了计算成本与延迟。

核心亮点:性能、成本与效率的平衡

  • 性价比优势:官方宣称其价格仅为 Anthropic Claude Sonnet 的 8%,推理速度约为其 2 倍,并提供有限期的免费试用窗口。
  • 代理工作流优化:针对需要长时间运行、多步骤规划、工具调用(如 shell、浏览器、代码执行器、检索系统)的复杂任务进行了专门优化。
  • 开源可复现:模型权重、基准测试配置、部署指南(vLLM/SGLang)一并公开,确保社区可验证与部署。

架构特色:紧凑 MoE 与“交错思考”

  1. 紧凑 MoE 设计:2290 亿参数的 MoE 架构,动态激活 100 亿参数,有效控制了推理过程中的内存占用尾延迟,使得在代理循环(规划-行动-验证)中能维持更稳定的性能。
  2. “交错思考”机制:模型内部的推理过程被 <think>...</think> 标签包裹。官方强调,在多轮对话历史中保留这些标签对于维持多步骤任务和工具链的准确性至关重要。移除它们会显著损害模型表现。

性能基准:聚焦开发者真实场景

M2 的评估侧重于代理与编码的实际应用,而非传统的静态问答:

  • Terminal-Bench:46.3
  • Multi SWE-Bench:36.2
  • BrowseComp:44.0
  • SWE-bench Verified:69.4(使用 OpenHands 脚手架,128k 上下文,100 步)

这些指标表明,M2 在终端操作、代码修改、网页浏览与交互等开发者高频场景中具备强大的实用性。

MiniMax 发布 MiniMax M2:面向编码与代理的高性能开源 MoE 模型

M1 vs M2:从广度到深度的演进

特性MiniMax M1MiniMax M2
总参数4560 亿2290 亿
激活参数459 亿100 亿
设计焦点长上下文、通用推理代理 & 代码工作流
思考格式无特殊标签协议<think>...</think> 交错思考
主要基准MMLU-Pro, AIME, SWE-BenchTerminal-Bench, Multi SWE-Bench, BrowseComp
核心优势通用长文本处理特定场景高性能、低成本

M2 相比 M1,是一次从“通用大而全”到“专业小而精”的战略调整,专注于代理与编码领域,以更少的资源消耗,实现更优的特定任务性能。

© 版权声明

相关文章

暂无评论

none
暂无评论...