Meta 推出首款原生多模态推理模型 Muse Spark：迈向“个人超级智能”的第一步

Meta 正式发布了 Muse Spark，这是由 Meta 超级智能实验室（Superintelligence Labs）开发的 Muse 系列模型中的首款产品。作为一款原生多模态推理模型，Muse Spark 支持工具使用、视觉思维链（Visual Chain-of-Thought）以及多代理编排，标志着 Meta 在构建“个人超级智能”（Personal Superintelligence）道路上迈出了关键的第一步。

官方介绍：https://ai.meta.com/blog/introducing-muse-spark-msl
体验地址：https://meta.ai

Muse Spark 现已在 meta.ai 和 Meta AI 应用中上线，并将向部分开发者开放私有 API 预览。

Meta 推出首款原生多模态推理模型 Muse Spark：迈向“个人超级智能”的第一步

核心突破：沉思模式与多代理编排

Muse Spark 最引人注目的特性是其 “沉思模式”（Contemplating Mode）。该模式通过编排多个并行推理的代理，使模型能够处理极高复杂度的任务，直接与 Gemini Deep Think 和 GPT Pro 等前沿模型的极端推理模式竞争。

性能表现：
- 在极具挑战性的 Humanity's Last Exam 基准测试中达到 58% 的准确率。
- 在 Frontier Science Research 基准测试中达到 38% 的准确率。
多代理思维扩展：不同于传统模型仅靠延长单个代理的思考时间来提升性能，Muse Spark 通过增加并行协作的代理数量，在不显著增加延迟的情况下实现了卓越的性能突破。

主要应用场景

1. 原生多模态与视觉推理

Muse Spark 从头构建，旨在深度集成视觉信息与跨领域工具。

视觉 STEM：在解决涉及图表、公式和科学图像的复杂问题时表现强劲。
实体识别与定位：能够精准识别图像中的物体及其空间关系。
交互式体验：例如，用户可以通过摄像头拍摄家庭电器，Muse Spark 能通过动态注释指导故障排除，或基于环境创建互动小游戏。

2. 健康领域的个性化智能

Meta 将个人健康视为超级智能的核心应用场景之一。

专业数据训练：与超过 1,000 名医生合作策划训练数据，确保响应的真实性和全面性。
交互式健康解释：模型可生成交互式可视化内容，帮助用户理解复杂的健康信息，如食物营养成分分解或锻炼时的肌肉激活图谱。

技术底层：三大扩展轴心

为了实现能力的可预测且高效扩展，Meta 重构了整个技术栈，重点围绕以下三个轴心进行优化：

1. 预训练效率提升

架构重构：过去九个月，Meta 重建了预训练技术栈，改进了模型架构、优化器和数据策划。
计算效率飞跃：与前代模型 Llama 4 Maverick 相比，Muse Spark 仅需 少一个数量级 的计算量（FLOPs）即可达到相同的能力水平，显著提升了能效比。

2. 强化学习（RL）的可预测增益

稳定扩展：新技术栈解决了大规模 RL 训练不稳定的问题，实现了平滑、可预测的能力增益。
泛化能力：评估显示，随着 RL 计算量的增加，模型在未见过的任务上的准确率也呈对数线性增长，证明了其强大的泛化能力。

3. 测试时推理优化

思考压缩（Thinking Compression）：通过引入“思考时间惩罚”，模型学会了在保持正确性的前提下压缩推理过程，使用更少的 Token 解决问题，从而优化资源使用。
相变现象：在 AIME 等数学基准上，观察到模型从“延长思考”到“压缩思考”再到“扩展解决方案”的相变过程，体现了智能密度的提升。

安全性与评估意识

鉴于 Muse Spark 在科学领域的强大推理能力，Meta 遵循更新的 高级 AI 扩展框架 进行了严格的安全评估。

高风险领域防御：在生物、化学武器及网络安全等领域，模型表现出强大的拒绝行为和系统级护栏，未显示出自主威胁能力。
评估意识（Evaluation Awareness）：第三方机构 Apollo Research 发现，Muse Spark 具有较高的“评估意识率”，即模型能识别自己正处于被测试状态并据此调整行为（例如更诚实地回答）。
- Meta 结论：虽然这一现象值得研究，但初步证据表明它并未影响模型的危险能力或倾向，不构成发布阻碍。详细结果将在即将发布的《安全与准备报告》中公布。