微软近日推出了一款全新的小型语言模型——Mu,它专为边缘设备和特定任务设计,在本地运行时展现出卓越性能。目前,Mu 已经在 Copilot+ PC 的 Windows Insider 开发频道中,用于支持“设置中的代理”功能。
这项功能的核心目标是:通过自然语言理解,帮助用户快速找到并修改系统设置。Mu 模型正是实现这一目标的关键技术支撑。
为什么需要 Mu?
在现代操作系统中,设置选项日益繁多,普通用户往往难以快速定位所需功能。为此,微软希望打造一个能够理解自然语言并直接调用设置接口的 AI 代理。
这个代理必须具备几个关键特性:
- 响应速度快:首令牌延迟要低,整体响应时间控制在几百毫秒内。
- 资源占用小:能在 NPU(神经处理单元)等专用硬件上高效运行。
- 准确率高:能正确识别用户意图并映射到对应的系统设置操作。
Phi 系列模型虽然具备一定的语言理解能力,但体积过大,无法满足实时性和功耗要求。因此,微软决定从头构建一款轻量级模型——Mu。

Mu 是什么?它的核心架构与优势
Mu 是一个3.3 亿参数的编码器-解码器语言模型,专为边缘设备上的任务定制。其主要特点包括:
1. 编码器-解码器结构
不同于传统的纯解码器模型(如 GPT),Mu 使用了经典的 Transformer 编码器-解码器架构。这意味着:
- 编码器一次性将输入转换为固定长度的表示;
- 解码器基于该表示逐步生成输出。
这种设计带来了显著效率提升:在高通 Hexagon NPU 上测试显示,相比同规模仅解码器模型,Mu 的首令牌延迟降低约 47%,解码速度提升 4.7 倍。
2. 针对 NPU 的深度优化
为了充分发挥 NPU 的性能,Mu 在多个方面进行了适配性设计:
- 层维度与张量大小与 NPU 向量化单元对齐;
- 编码器与解码器层比例优化为 2:1(如 32 编码层 + 12 解码层);
- 使用权重共享技术减少参数总量(例如绑定输入嵌入与输出嵌入);
- 仅使用 NPU 支持的操作类型,避免低效或不兼容的运算。
这些优化使得 Mu 能够在 Copilot+ PC 上实现每秒超过 100 个输出令牌的速度,完全满足实时交互需求。

关键技术升级:以更小模型实现更强性能
尽管参数规模仅为 Phi 的十分之一,Mu 依然实现了接近甚至媲美大型模型的准确度。这得益于以下三项关键技术:
1. 双重层归一化(Dual LayerNorm)
在每个子层前后都进行归一化处理,保持激活值的良好缩放,既稳定训练过程,又几乎不增加额外开销。
2. 旋转位置嵌入(RoPE)
通过复数值旋转方式将相对位置信息嵌入注意力机制,不仅提升了长序列推理能力,还能无缝扩展到比训练数据更长的上下文中。
3. 分组查询注意力(GQA)
在保留头部多样性的同时,通过共享键/值来减少内存和计算量,有效降低延迟和能耗。
此外,训练阶段采用了诸如 Muon 优化器 和 预热-稳定-衰减学习率调度 等策略,进一步提升了模型表现。
训练与微调:从小样本到大规模应用
Mu 的训练分为两个阶段:
- 预训练阶段:在 Azure A100 GPU 上,使用数十亿高质量教育语料进行基础语言建模训练。
- 知识蒸馏阶段:从微软 Phi 模型中提取知识,进一步提升参数效率。
最终得到的 Mu 是一个通用基础模型,但在实际应用前还需进行任务微调。
微调设置代理功能
Windows 设置代理的目标是让用户通过自然语言指令,自动触发对应设置操作。例如,“打开飞行模式”或“关闭通知中心”。
为了达到高精度,团队采取了一系列措施:
- 自动标注合成数据,扩大训练集至 360 万条;
- 对元数据进行提示调整,增强语义理解;
- 引入噪声注入与多样化措辞,提高泛化能力;
- 应用 LoRA 技术进行轻量级微调。
经过优化后,Mu 在 SQUAD、CodeXGlue 等任务上表现出色,尤其在设置代理任务中达到了 0.738 的准确率(满分 1.0),响应时间低于 500 毫秒。
| 任务 | Mu(微调) | Phi-3.5-mini(微调) |
|---|---|---|
| SQUAD | 0.692 | 0.846 |
| CodeXGlue | 0.934 | 0.930 |
| 设置代理 | 0.738 | 0.815 |
量化与部署:让 Mu 更适合边缘设备
为了让 Mu 更好地适应 Copilot+ PC 的 NPU,微软采用了一系列量化和优化手段:
- 后训练量化(PTQ):将浮点权重和激活值转换为 8 位或 16 位整数,大幅减少内存占用;
- 与芯片厂商合作:针对 AMD、英特尔和高通的不同 NPU 进行定制优化;
- 数学运算符对齐:确保所有操作都能高效运行于目标硬件。
最终,Mu 在 Surface Laptop 7 上实现了每秒超过 200 个输出令牌 的速度,且在长上下文场景下仍能保持低延迟。

落地应用:设置代理的实际体验
如今,Mu 已被集成进 Windows 设置搜索框中。当用户输入类似“启用深色模式”、“关闭蓝牙”等完整语句时,代理会立即识别并执行相应操作。
对于较短或模糊的查询(如“亮度”),系统将继续提供关键词匹配结果,避免误操作。
此外,面对复杂场景(如双显示器亮度调节),Mu 也能优先推荐最常用设置,同时为高级用户提供更多选项。















