微软 AI(Microsoft AI)旗下的 MAI 超智能团队(由 Mustafa Suleyman 领导)今日正式宣布推出三款全新的自研基础模型:MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2。
- MAI Playground:https://msi-playground.microsoft.com/chat
- 官方介绍:https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry
此次发布标志着微软在依赖 OpenAI 的同时,正加速构建独立的多模态 AI 模型栈。这三款模型覆盖语音转录、音频生成和图像/视频生成领域,并以极致的性价比和行业领先的准确率直接向谷歌、OpenAI 等竞争对手发起挑战。

三款新模型详解
1. 🎙️ MAI-Transcribe-1:全球最准、最快的语音转录模型
这是微软本次发布的重磅产品,专为高精度语音转文本设计。
- 极致准确:平均词错误率(WER)仅为 3.9%。
- 在 FLEURS 基准测试的 11 种核心语言中排名 全球第一。
- 在其余 14 种语言中,全面超越 Whisper-large-v3,并在 11 种语言上优于 Google Gemini 3.1 Flash。
- 多语言支持:覆盖全球前 25 大语言(包括中、英、日、韩、阿拉伯语等)。
- 速度飞跃:批量转录速度是现有 Azure Fast 产品的 2.5 倍。
- 限时局限:目前暂不支持实时转录、说话人分离或自定义偏置(计划后续版本加入)。
- 定价:$0.36 / 小时,号称云提供商中最佳性价比。
2. 🗣️ MAI-Voice-1:秒级生成的定制语音模型
一款高效的音频生成模型,专注于快速合成与个性化。
- 极速生成:仅需 1 秒 即可生成 60 秒 的高质量音频。
- 自定义语音:支持用户创建专属的克隆语音(通过 Azure Speech 个人语音功能)。
- 定价:$22 / 百万字符。
3. 🎨 MAI-Image-2:高性价比的图像/视频生成模型
最初于 3 月在 MAI Playground 亮相,现正式登陆 Microsoft Foundry。
- 多模态能力:支持文本生成图像及视频内容。
- 定价策略:
- 文本输入:$5 / 百万 Token
- 图像输出:$33 / 百万 Token
- 注:此价格显著低于许多竞品,旨在通过低价策略抢占市场份额。
核心战略:人本 AI 与极致性价比
Mustafa Suleyman 强调,MAI 团队的核心理念是构建 “人本 AI” (Human-Centric AI):
“我们针对人们实际沟通的方式进行优化,为实际应用进行训练。”
此次发布的三大卖点直指当前市场痛点:
- 更便宜:明确标价低于谷歌和 OpenAI 的同类模型,试图以价格优势吸引开发者和企业客户。
- 更精准:MAI-Transcribe-1 在多项基准测试中夺魁,证明自研模型在垂直领域已达到 SOTA(State-of-the-Art)水平。
- 更快速:转录速度的大幅提升,满足了大规模数据处理的需求。
🤝 与 OpenAI 的关系:合作与竞争并存
尽管推出了自研模型,微软并未放弃与 OpenAI 的合作。
- 双重策略:Suleyman 重申了对 OpenAI 合作伙伴关系的承诺(微软已投资超 130 亿美元)。
- 自主权扩大:最近的协议重新谈判使微软获得了更大的自由度,能够并行推进内部的“超智能”研究,形成“外部最强合作 + 内部自主可控”的双引擎驱动模式。
- 芯片战略同理:如同在 AI 芯片领域既自研又外购,微软在模型层也采取了类似的多元化策略,以确保持续的竞争力和供应链安全。
🛠️ 可用性与部署
- 平台:所有三款模型现已在 Microsoft Foundry 平台上正式发布。
- MAI-Transcribe-1 和 MAI-Voice-1 也可在 MAI Playground 中体验。
- 集成前景:这些模型将很快被整合到微软的各类产品体验中(如 Teams, Azure AI Services, Office 等),为用户提供原生的增强功能。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















