百度正式发布 MuseSteamer 2.0 —— 其音视频一体化生成模型的重大升级版本,在行业内首次实现多人有声视频的端到端联合生成。

这意味着,用户只需输入一段文字描述,系统即可自动生成包含多个角色、同步语音、自然表情与动作、复杂运镜的完整视频内容,无需后期配音、剪辑或合成。
此次升级标志着国内AIGC在多模态生成领域迈出关键一步,也为影视、教育、广告等行业的内容生产提供了新的自动化路径。

核心能力:从“单人无声”到“多人有声”的跨越
相比此前主流视频生成模型多集中于单人场景、无声或后期配声的局限,MuseSteamer 2.0 实现了多项突破:
✅ 多人音视频一体化生成
- 支持多个角色在同一场景中对话或互动;
- 每个角色的语音、口型、表情、动作均与文本指令同步生成;
- 语音与画面严格对齐,无须后期配音或调整时序。
示例:输入“两位主持人在一档科技节目中讨论AI进展”,模型可生成两人交替发言、眼神交流、手势配合、语音同步的完整片段。
✅ 电影级表演与细腻表达
- 角色具备自然微表情(眨眼、皱眉、微笑等);
- 动作流畅,支持站立、走动、手势等常见行为;
- 面部口型精准匹配语音内容,提升真实感。
✅ 复杂运镜与镜头语言
- 支持推拉、摇移、切换视角等运镜指令;
- 可指定“特写”“全景”“跟拍”等镜头类型;
- 镜头切换逻辑合理,增强叙事表现力。
✅ 流畅画质与稳定输出
- 输出分辨率高,动作连贯无抖动;
- 时序一致性强,长视频生成稳定性提升。
技术底座:三大核心能力支撑
MuseSteamer 2.0 的突破建立在三项关键技术之上:
- 多模态时空规划架构
统一建模文本、音频、图像、运动的时空关系,确保语音、动作、镜头变化在时间轴上精确对齐。 - 中文场景深度优化
针对中文语境下的表达习惯、语音节奏、文化场景进行专项训练,提升生成内容的本土适配性。 - 音视端到端联合建模
不再将音频与视频分离生成,而是通过统一模型同时输出音轨与画面,从根本上解决音画不同步问题。
产品矩阵全面开放
为满足不同用户需求,MuseSteamer 推出多个版本,现已全面开放:
| 版本 | 适用场景 | 特点 |
|---|---|---|
| Turbo | 高速生成 | 快速出片,适合短视频、社交媒体内容 |
| Lite | 轻量使用 | 低资源消耗,适合个人创作者 |
| Pro | 专业制作 | 高精度、高分辨率,支持复杂指令 |
| 全系有声版 | 音视频同步 | 所有版本均支持语音同步生成 |
如何体验?
- 个人用户:百度搜索“百度蒸汽机”或访问“绘想”平台直接使用;
- 企业用户:可通过“千帆大模型平台”调用高性能API服务,支持定制化部署与批量生成。
安全提示:警惕假冒网站
8月19日,百度发布安全声明:近期海外出现大量仿冒“百度蒸汽机(MuseSteamer)”的虚假网站,宣称提供下载、训练或付费服务。
百度强调:
- MuseSteamer 为百度自主研发模型;
- 所有官方服务均通过百度官网、绘想平台、千帆平台提供;
- 未授权任何第三方发布模型或收取费用。
请广大用户注意甄别,谨防受骗。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















