MiniMax 发布 M2.7:首个实现“自我进化”的 Agent 模型,研发效率提升 50%

2026 年 3 月18日,国内大模型独角兽 MiniMax(稀宇科技) 正式发布了新一代 Agent 旗舰大模型 M2.7。这款模型不仅刷新了多项代码与办公基准测试的纪录,更首次向外界展示了 “模型自我进化” 的完整路径——让 AI 深度参与自身的训练、优化与迭代流程。

MiniMax 发布 M2.7:首个实现“自我进化”的 Agent 模型,研发效率提升 50%

官方数据显示,在部分核心研发场景中,M2.7 已能承担 30%—50% 的工作量,并在内部评测集上实现了 30% 的效果提升。这标志着 AI 正从“辅助工具”向“自主进化体”迈进。

核心突破:模型自我进化 (Self-Evolving)

M2.7 最震撼的能力在于其构建了 Agent Harness 体系,能够自主驱动强化学习循环:

  • 自主迭代闭环:M2.7 能自行执行“分析失败轨迹 → 规划改动 → 修改代码/参数 → 运行评测 → 对比结果 → 决定保留或回退”的完整循环。
  • 实战案例:在一次内部测试中,M2.7 自主运行了超过 100 轮 迭代,成功发现了采样参数(温度、频率惩罚等)的最优组合,并优化了 Agent Loop 中的循环检测机制,最终使内部评测效果提升 30%
  • 竞赛成绩:在 MLE Bench Lite(机器学习任务竞赛)中,M2.7 经过 24 小时自主进化,最好成绩斩获 9 金 5 银 1 铜,平均得牌率 66.6%,与 Gemini-3.1 持平,仅次于 Opus-4.6 和 GPT-5.4。

“未来的 AI 自我进化将逐步过渡到完全自动化,包括自主协调数据构建、模型训练、推理架构与评测。” —— MiniMax

MiniMax 发布 M2.7:首个实现“自我进化”的 Agent 模型,研发效率提升 50%

软件工程:媲美国际顶尖水平

M2.7 在真实软件工程场景中的表现已达到国际一线水准,尤其在复杂系统理解与故障排查上优势明显:

  • 基准测试
    • SWE-Pro(多语言代码修复):56.22%,追平 GPT-5.3-Codex
    • VIBE-Pro(Repo 级项目生成):55.6%,几乎与 Opus 4.6 持平。
    • Terminal Bench 2(复杂系统理解):57.0%,展现深层逻辑推理能力。
  • 生产级排障:面对线上告警,M2.7 能关联监控指标、分析日志、定位根因(如缺失的索引迁移文件),甚至给出“非阻塞建索引”的止血方案。基于 M2.7,MiniMax 已将多次生产故障的恢复时间缩短至 3 分钟以内
  • 原生多智能体协作 (Agent Teams):M2.7 内化了角色边界、对抗性推理与协议遵循能力,无需复杂提示词即可组建“产品经理 + 开发 + 测试”的最小化原型团队。

专业办公:高保真编辑与复杂技能遵循

除了写代码,M2.7 在办公场景的“最后一公里”也取得了突破:

  • 文档处理能力:在 GDPval-AA 评测中,ELO 得分 1495(开源最高)。能对 Word/Excel/PPT 进行多轮、高保真的复杂编辑,直接产出可交付物。
  • 复杂技能遵循:在 MM-Claw 评测集中,面对 40 个超复杂 Skills(>2000 Token),M2.7 仍保持 97% 的指令遵循率,远超上一代。
  • 金融分析师案例:能自主阅读年报、交叉比对研报、构建营收预测模型并输出 PPT,产出物可直接作为初稿进入工作流。
MiniMax 发布 M2.7:首个实现“自我进化”的 Agent 模型,研发效率提升 50%

互动娱乐:情商与人设的飞跃

M2.7 不仅智商在线,情商也大幅升级:

  • 人设保持:在长程交互中能稳定维持复杂人设,支持用户与 Agent“相处”而非单纯“使用”。
  • OpenRoom 开源项目:MiniMax 同步开源了 OpenRoom 交互系统,将 AI 互动置入万物皆可互动的 Web GUI 空间,实现“对话即驱动,实时视觉反馈”。

评测数据一览

基准测试任务类型M2.7 得分对标模型评价
SWE-Pro代码修复56.22%≈ GPT-5.3-Codex国际一线
VIBE-Pro项目生成55.6%≈ Opus 4.6端到端交付
Terminal Bench 2系统理解57.0%-深层逻辑
GDPval-AA办公专业度1495 (ELO)> GPT-5.3开源最高
MM-Claw复杂技能遵循62.7%≈ Sonnet 4.697% 遵循率
MLE Bench Lite自主进化66.6% (得牌率)= Gemini-3.1自我迭代

生态与获取

M2.7 已在 MiniMax Agent 与开放平台全量上线,并推出了针对开发者的 Coding Plan 订阅服务。

© 版权声明

相关文章

暂无评论

none
暂无评论...