微软 MAI 团队亮剑:发布三款自研基础模型,主打“更快、更准、更便宜”

早报4小时前发布 小马良
5 0

微软 AI(Microsoft AI)旗下的 MAI 超智能团队(由 Mustafa Suleyman 领导)今日正式宣布推出三款全新的自研基础模型:MAI-Transcribe-1MAI-Voice-1 和 MAI-Image-2

  • MAI Playground:https://msi-playground.microsoft.com/chat
  • 官方介绍:https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry

此次发布标志着微软在依赖 OpenAI 的同时,正加速构建独立的多模态 AI 模型栈。这三款模型覆盖语音转录、音频生成和图像/视频生成领域,并以极致的性价比行业领先的准确率直接向谷歌、OpenAI 等竞争对手发起挑战。

微软 MAI 团队亮剑:发布三款自研基础模型,主打“更快、更准、更便宜”

三款新模型详解

1. 🎙️ MAI-Transcribe-1:全球最准、最快的语音转录模型

这是微软本次发布的重磅产品,专为高精度语音转文本设计。

  • 极致准确:平均词错误率(WER)仅为 3.9%
    • 在 FLEURS 基准测试的 11 种核心语言中排名 全球第一
    • 在其余 14 种语言中,全面超越 Whisper-large-v3,并在 11 种语言上优于 Google Gemini 3.1 Flash
  • 多语言支持:覆盖全球前 25 大语言(包括中、英、日、韩、阿拉伯语等)。
  • 速度飞跃:批量转录速度是现有 Azure Fast 产品的 2.5 倍
  • 限时局限:目前暂不支持实时转录、说话人分离或自定义偏置(计划后续版本加入)。
  • 定价$0.36 / 小时,号称云提供商中最佳性价比。

2. 🗣️ MAI-Voice-1:秒级生成的定制语音模型

一款高效的音频生成模型,专注于快速合成与个性化。

  • 极速生成:仅需 1 秒 即可生成 60 秒 的高质量音频。
  • 自定义语音:支持用户创建专属的克隆语音(通过 Azure Speech 个人语音功能)。
  • 定价$22 / 百万字符

3. 🎨 MAI-Image-2:高性价比的图像/视频生成模型

最初于 3 月在 MAI Playground 亮相,现正式登陆 Microsoft Foundry。

  • 多模态能力:支持文本生成图像及视频内容。
  • 定价策略
    • 文本输入:$5 / 百万 Token
    • 图像输出:$33 / 百万 Token
    • 注:此价格显著低于许多竞品,旨在通过低价策略抢占市场份额。

核心战略:人本 AI 与极致性价比

Mustafa Suleyman 强调,MAI 团队的核心理念是构建 “人本 AI” (Human-Centric AI)

“我们针对人们实际沟通的方式进行优化,为实际应用进行训练。”

此次发布的三大卖点直指当前市场痛点:

  1. 更便宜:明确标价低于谷歌和 OpenAI 的同类模型,试图以价格优势吸引开发者和企业客户。
  2. 更精准:MAI-Transcribe-1 在多项基准测试中夺魁,证明自研模型在垂直领域已达到 SOTA(State-of-the-Art)水平。
  3. 更快速:转录速度的大幅提升,满足了大规模数据处理的需求。

🤝 与 OpenAI 的关系:合作与竞争并存

尽管推出了自研模型,微软并未放弃与 OpenAI 的合作。

  • 双重策略:Suleyman 重申了对 OpenAI 合作伙伴关系的承诺(微软已投资超 130 亿美元)。
  • 自主权扩大:最近的协议重新谈判使微软获得了更大的自由度,能够并行推进内部的“超智能”研究,形成“外部最强合作 + 内部自主可控”的双引擎驱动模式。
  • 芯片战略同理:如同在 AI 芯片领域既自研又外购,微软在模型层也采取了类似的多元化策略,以确保持续的竞争力和供应链安全。

🛠️ 可用性与部署

  • 平台:所有三款模型现已在 Microsoft Foundry 平台上正式发布。
    • MAI-Transcribe-1 和 MAI-Voice-1 也可在 MAI Playground 中体验。
  • 集成前景:这些模型将很快被整合到微软的各类产品体验中(如 Teams, Azure AI Services, Office 等),为用户提供原生的增强功能。
© 版权声明

相关文章

暂无评论

none
暂无评论...