小米自研声音理解大模型 MiDashengLM-7B 正式开源

语音模型4个月前更新 小马良
210 0

小米正式发布并全量开源其自研声音理解大模型 —— MiDashengLM-7B。该模型在性能与效率上实现双重突破,标志着小米在多模态AI领域,尤其是声音理解方向的又一次重要进展。

作为小米“人车家全生态”战略的核心技术之一,MiDashengLM-7B 不仅在多项指标上刷新纪录,更以完全开放的姿态推动行业技术共享。

性能突破:速度与精度的双重飞跃

根据小米官方介绍,MiDashengLM-7B 在关键性能指标上表现卓越:

  • ✅ 首 Token 延迟仅为同类模型的 1/4:单样本推理时,响应速度极快,显著提升交互实时性。
  • ✅ 同显存下并发能力提升超 20 倍:更适合高并发服务部署,降低推理成本。
  • ✅ 22 个公开评测集刷新 SOTA(State-of-the-Art)记录:在语音、环境声、音乐等多类任务中全面领先,成为当前多模态声音理解领域的最强模型之一。
小米自研声音理解大模型 MiDashengLM-7B 正式开源

技术架构:统一理解,跨域融合

MiDashengLM-7B 的核心架构由两部分组成:

  1. 音频编码器:Xiaomi Dasheng
    小米自研的声音基座模型,已在国际权威基准上建立领先优势:

    • 首个在 AudioSet-50 上突破 mAP 50 的模型
    • 在 HEAR Benchmark 的语音、环境声、音乐三大领域均保持领先
  2. 自回归解码器:Qwen2.5-Omni-7B Thinker
    负责生成自然语言响应,实现从“听到”到“理解”再到“表达”的完整闭环。

通过创新的通用音频描述训练策略,模型实现了对三类声音的统一建模:

  • 语音(如对话、指令)
  • 环境声(如敲门声、玻璃破碎)
  • 音乐(如旋律识别、风格判断)

这意味着模型不仅能“听清”,更能“听懂”——理解声音背后的语义与情境。

小米自研声音理解大模型 MiDashengLM-7B 正式开源

实际应用:已深度融入小米生态

Xiaomi Dasheng 系列模型已在小米多个产品线中落地超 30 项应用,涵盖智能家居与智能汽车场景:

  • 🚗 车外唤醒防御:识别外部模仿唤醒声,防止误触发
  • 🏠 全天候异常声音监控:手机/音箱可检测家中烟雾报警、玻璃破碎等危险信号
  • ✋ “打个响指”控制 IoT 设备:通过特定环境音触发智能设备联动
  • 🚘 小米 YU7 哨兵模式增强:利用划车声检测实现主动安全防护

MiDashengLM 作为其升级版,将进一步提升这些功能的准确性与泛化能力。

完全开放:数据、代码、许可全透明

小米强调,MiDashengLM-7B 是一个真正开放的模型

  • 🔓 训练数据 100% 来自公开数据集
  • 📚 完整公开 77 个数据源的详细配比
  • 📘 技术报告详述全流程:从音频编码器预训练、多任务学习到指令微调
  • 📄 采用 Apache License 2.0 开源协议
    支持学术研究与商业应用,无使用限制

这与部分未公开训练细节的闭源模型形成鲜明对比,体现了小米推动技术透明化的决心。

未来方向:向终端与交互延伸

在当前版本基础上,小米已启动下一阶段研发,重点方向包括:

  • 终端离线部署:优化计算效率,实现在手机、音箱、汽车等设备上的本地运行
  • 声音编辑能力:支持基于自然语言提示的声音修改与生成(如“把这段录音背景变安静”)
  • 个性化反馈系统:为用户提供更人性化的交互体验

例如:

  • 用户练习唱歌时,模型可提供发音纠正与训练建议
  • 驾驶途中,用户可询问“刚才那声巨响是什么?”并获得实时解答
© 版权声明

相关文章

暂无评论

none
暂无评论...