微软新推 Mu 模型:专为 Windows 设置代理而生的小而强语言模型

大语言模型6个月前发布 小马良
188 0

微软近日推出了一款全新的小型语言模型——Mu,它专为边缘设备和特定任务设计,在本地运行时展现出卓越性能。目前,Mu 已经在 Copilot+ PC 的 Windows Insider 开发频道中,用于支持“设置中的代理”功能。

这项功能的核心目标是:通过自然语言理解,帮助用户快速找到并修改系统设置。Mu 模型正是实现这一目标的关键技术支撑。

为什么需要 Mu?

在现代操作系统中,设置选项日益繁多,普通用户往往难以快速定位所需功能。为此,微软希望打造一个能够理解自然语言并直接调用设置接口的 AI 代理。

这个代理必须具备几个关键特性:

  • 响应速度快:首令牌延迟要低,整体响应时间控制在几百毫秒内。
  • 资源占用小:能在 NPU(神经处理单元)等专用硬件上高效运行。
  • 准确率高:能正确识别用户意图并映射到对应的系统设置操作。

Phi 系列模型虽然具备一定的语言理解能力,但体积过大,无法满足实时性和功耗要求。因此,微软决定从头构建一款轻量级模型——Mu。

Mu 是什么?它的核心架构与优势

Mu 是一个3.3 亿参数的编码器-解码器语言模型,专为边缘设备上的任务定制。其主要特点包括:

1. 编码器-解码器结构

不同于传统的纯解码器模型(如 GPT),Mu 使用了经典的 Transformer 编码器-解码器架构。这意味着:

  • 编码器一次性将输入转换为固定长度的表示;
  • 解码器基于该表示逐步生成输出。

这种设计带来了显著效率提升:在高通 Hexagon NPU 上测试显示,相比同规模仅解码器模型,Mu 的首令牌延迟降低约 47%解码速度提升 4.7 倍

2. 针对 NPU 的深度优化

为了充分发挥 NPU 的性能,Mu 在多个方面进行了适配性设计:

  • 层维度与张量大小与 NPU 向量化单元对齐;
  • 编码器与解码器层比例优化为 2:1(如 32 编码层 + 12 解码层);
  • 使用权重共享技术减少参数总量(例如绑定输入嵌入与输出嵌入);
  • 仅使用 NPU 支持的操作类型,避免低效或不兼容的运算。

这些优化使得 Mu 能够在 Copilot+ PC 上实现每秒超过 100 个输出令牌的速度,完全满足实时交互需求。

关键技术升级:以更小模型实现更强性能

尽管参数规模仅为 Phi 的十分之一,Mu 依然实现了接近甚至媲美大型模型的准确度。这得益于以下三项关键技术:

1. 双重层归一化(Dual LayerNorm)

在每个子层前后都进行归一化处理,保持激活值的良好缩放,既稳定训练过程,又几乎不增加额外开销。

2. 旋转位置嵌入(RoPE)

通过复数值旋转方式将相对位置信息嵌入注意力机制,不仅提升了长序列推理能力,还能无缝扩展到比训练数据更长的上下文中。

3. 分组查询注意力(GQA)

在保留头部多样性的同时,通过共享键/值来减少内存和计算量,有效降低延迟和能耗。

此外,训练阶段采用了诸如 Muon 优化器  预热-稳定-衰减学习率调度 等策略,进一步提升了模型表现。

训练与微调:从小样本到大规模应用

Mu 的训练分为两个阶段:

  1. 预训练阶段:在 Azure A100 GPU 上,使用数十亿高质量教育语料进行基础语言建模训练。
  2. 知识蒸馏阶段:从微软 Phi 模型中提取知识,进一步提升参数效率。

最终得到的 Mu 是一个通用基础模型,但在实际应用前还需进行任务微调

微调设置代理功能

Windows 设置代理的目标是让用户通过自然语言指令,自动触发对应设置操作。例如,“打开飞行模式”或“关闭通知中心”。

为了达到高精度,团队采取了一系列措施:

  • 自动标注合成数据,扩大训练集至 360 万条;
  • 对元数据进行提示调整,增强语义理解;
  • 引入噪声注入与多样化措辞,提高泛化能力;
  • 应用 LoRA 技术进行轻量级微调。

经过优化后,Mu 在 SQUAD、CodeXGlue 等任务上表现出色,尤其在设置代理任务中达到了 0.738 的准确率(满分 1.0),响应时间低于 500 毫秒。

任务Mu(微调)Phi-3.5-mini(微调)
SQUAD0.6920.846
CodeXGlue0.9340.930
设置代理0.7380.815

量化与部署:让 Mu 更适合边缘设备

为了让 Mu 更好地适应 Copilot+ PC 的 NPU,微软采用了一系列量化和优化手段:

  • 后训练量化(PTQ):将浮点权重和激活值转换为 8 位或 16 位整数,大幅减少内存占用;
  • 与芯片厂商合作:针对 AMD、英特尔和高通的不同 NPU 进行定制优化;
  • 数学运算符对齐:确保所有操作都能高效运行于目标硬件。

最终,Mu 在 Surface Laptop 7 上实现了每秒超过 200 个输出令牌 的速度,且在长上下文场景下仍能保持低延迟。

落地应用:设置代理的实际体验

如今,Mu 已被集成进 Windows 设置搜索框中。当用户输入类似“启用深色模式”、“关闭蓝牙”等完整语句时,代理会立即识别并执行相应操作。

对于较短或模糊的查询(如“亮度”),系统将继续提供关键词匹配结果,避免误操作。

此外,面对复杂场景(如双显示器亮度调节),Mu 也能优先推荐最常用设置,同时为高级用户提供更多选项。

© 版权声明

相关文章

暂无评论

none
暂无评论...