微软 MAI 团队亮剑：发布三款自研基础模型，主打“更快、更准、更便宜”

早报4小时前发布小马良

5 0

微软 AI（Microsoft AI）旗下的 MAI 超智能团队（由 Mustafa Suleyman 领导）今日正式宣布推出三款全新的自研基础模型：MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2。

MAI Playground：https://msi-playground.microsoft.com/chat
官方介绍：https://microsoft.ai/news/today-were-announcing-3-new-world-class-mai-models-available-in-foundry

此次发布标志着微软在依赖 OpenAI 的同时，正加速构建独立的多模态 AI 模型栈。这三款模型覆盖语音转录、音频生成和图像/视频生成领域，并以极致的性价比和行业领先的准确率直接向谷歌、OpenAI 等竞争对手发起挑战。

微软 MAI 团队亮剑：发布三款自研基础模型，主打“更快、更准、更便宜”

三款新模型详解

1. 🎙️ MAI-Transcribe-1：全球最准、最快的语音转录模型

这是微软本次发布的重磅产品，专为高精度语音转文本设计。

极致准确：平均词错误率（WER）仅为 3.9%。
- 在 FLEURS 基准测试的 11 种核心语言中排名 全球第一。
- 在其余 14 种语言中，全面超越 Whisper-large-v3，并在 11 种语言上优于 Google Gemini 3.1 Flash。
多语言支持：覆盖全球前 25 大语言（包括中、英、日、韩、阿拉伯语等）。
速度飞跃：批量转录速度是现有 Azure Fast 产品的 2.5 倍。
限时局限：目前暂不支持实时转录、说话人分离或自定义偏置（计划后续版本加入）。
定价：$0.36 / 小时，号称云提供商中最佳性价比。

2. 🗣️ MAI-Voice-1：秒级生成的定制语音模型

一款高效的音频生成模型，专注于快速合成与个性化。

极速生成：仅需 1 秒 即可生成 60 秒 的高质量音频。
自定义语音：支持用户创建专属的克隆语音（通过 Azure Speech 个人语音功能）。
定价：$22 / 百万字符。

3. 🎨 MAI-Image-2：高性价比的图像/视频生成模型

最初于 3 月在 MAI Playground 亮相，现正式登陆 Microsoft Foundry。

多模态能力：支持文本生成图像及视频内容。
定价策略：
- 文本输入：$5 / 百万 Token
- 图像输出：$33 / 百万 Token
- 注：此价格显著低于许多竞品，旨在通过低价策略抢占市场份额。

核心战略：人本 AI 与极致性价比

Mustafa Suleyman 强调，MAI 团队的核心理念是构建 “人本 AI” (Human-Centric AI)：

“我们针对人们实际沟通的方式进行优化，为实际应用进行训练。”

此次发布的三大卖点直指当前市场痛点：

更便宜：明确标价低于谷歌和 OpenAI 的同类模型，试图以价格优势吸引开发者和企业客户。
更精准：MAI-Transcribe-1 在多项基准测试中夺魁，证明自研模型在垂直领域已达到 SOTA（State-of-the-Art）水平。
更快速：转录速度的大幅提升，满足了大规模数据处理的需求。

🤝 与 OpenAI 的关系：合作与竞争并存

尽管推出了自研模型，微软并未放弃与 OpenAI 的合作。

双重策略：Suleyman 重申了对 OpenAI 合作伙伴关系的承诺（微软已投资超 130 亿美元）。
自主权扩大：最近的协议重新谈判使微软获得了更大的自由度，能够并行推进内部的“超智能”研究，形成“外部最强合作 + 内部自主可控”的双引擎驱动模式。
芯片战略同理：如同在 AI 芯片领域既自研又外购，微软在模型层也采取了类似的多元化策略，以确保持续的竞争力和供应链安全。

🛠️ 可用性与部署

平台：所有三款模型现已在 Microsoft Foundry 平台上正式发布。
- MAI-Transcribe-1 和 MAI-Voice-1 也可在 MAI Playground 中体验。
集成前景：这些模型将很快被整合到微软的各类产品体验中（如 Teams, Azure AI Services, Office 等），为用户提供原生的增强功能。

早报 # MAI-Image-2 # MAI-Transcribe-1 # MAI-Voice-1 # 微软

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

谷歌的视频生成模型Veo 2 登陆 Gemini，但目前付费用户才可以使用

谷歌的视频生成模型Veo 2 登陆 Gemini，但目前付费用户才可以使用

早报 # Gemini Advanced # Veo 2 # 谷歌

12个月前

03070

OpenAI重磅升级ChatGPT：推出新一代通用AI智能体ChatGPT Agent，能执行任务、写代码、做报告

OpenAI重磅升级ChatGPT：推出新一代通用AI智能体ChatGPT Agent，能执行任务、写代码、做报告

早报 # ChatGPT Agent # OpenAI # 智能体

9个月前

02080

无需订阅ChatGPT Pro，Sora现在可通过Bing免费使用，Bing Video Creator已可以在必应APP上使用

无需订阅ChatGPT Pro，Sora现在可通过Bing免费使用，Bing Video Creator已可以在必应APP上使用

早报 # Bing Video Creator # Sora # 必应

10个月前

01480

谷歌突袭封禁 OpenClaw：每月 250 美元订阅户遭“连坐”，AI 套利时代终结

谷歌突袭封禁 OpenClaw：每月 250 美元订阅户遭“连坐”，AI 套利时代终结

早报 # OpenClaw # 反代 # 谷歌

1个月前

01230

暂无评论

none

暂无评论...