百度蒸汽机2.0 上线：首次实现多人有声视频一体化生成

早报8个月前更新小马良

431 0

百度正式发布 MuseSteamer 2.0 —— 其音视频一体化生成模型的重大升级版本，在行业内首次实现多人有声视频的端到端联合生成。

百度蒸汽机2.0 上线：首次实现多人有声视频一体化生成

这意味着，用户只需输入一段文字描述，系统即可自动生成包含多个角色、同步语音、自然表情与动作、复杂运镜的完整视频内容，无需后期配音、剪辑或合成。

此次升级标志着国内AIGC在多模态生成领域迈出关键一步，也为影视、教育、广告等行业的内容生产提供了新的自动化路径。

百度蒸汽机2.0 上线：首次实现多人有声视频一体化生成

核心能力：从“单人无声”到“多人有声”的跨越

相比此前主流视频生成模型多集中于单人场景、无声或后期配声的局限，MuseSteamer 2.0 实现了多项突破：

✅ 多人音视频一体化生成

支持多个角色在同一场景中对话或互动；
每个角色的语音、口型、表情、动作均与文本指令同步生成；
语音与画面严格对齐，无须后期配音或调整时序。

示例：输入“两位主持人在一档科技节目中讨论AI进展”，模型可生成两人交替发言、眼神交流、手势配合、语音同步的完整片段。

✅ 电影级表演与细腻表达

角色具备自然微表情（眨眼、皱眉、微笑等）；
动作流畅，支持站立、走动、手势等常见行为；
面部口型精准匹配语音内容，提升真实感。

✅ 复杂运镜与镜头语言

支持推拉、摇移、切换视角等运镜指令；
可指定“特写”“全景”“跟拍”等镜头类型；
镜头切换逻辑合理，增强叙事表现力。

✅ 流畅画质与稳定输出

输出分辨率高，动作连贯无抖动；
时序一致性强，长视频生成稳定性提升。

技术底座：三大核心能力支撑

MuseSteamer 2.0 的突破建立在三项关键技术之上：

多模态时空规划架构
统一建模文本、音频、图像、运动的时空关系，确保语音、动作、镜头变化在时间轴上精确对齐。
中文场景深度优化
针对中文语境下的表达习惯、语音节奏、文化场景进行专项训练，提升生成内容的本土适配性。
音视端到端联合建模
不再将音频与视频分离生成，而是通过统一模型同时输出音轨与画面，从根本上解决音画不同步问题。

产品矩阵全面开放

为满足不同用户需求，MuseSteamer 推出多个版本，现已全面开放：

版本	适用场景	特点
Turbo	高速生成	快速出片，适合短视频、社交媒体内容
Lite	轻量使用	低资源消耗，适合个人创作者
Pro	专业制作	高精度、高分辨率，支持复杂指令
全系有声版	音视频同步	所有版本均支持语音同步生成

如何体验？

个人用户：百度搜索“百度蒸汽机”或访问“绘想”平台直接使用；
企业用户：可通过“千帆大模型平台”调用高性能API服务，支持定制化部署与批量生成。

安全提示：警惕假冒网站

8月19日，百度发布安全声明：近期海外出现大量仿冒“百度蒸汽机（MuseSteamer）”的虚假网站，宣称提供下载、训练或付费服务。

百度强调：

MuseSteamer 为百度自主研发模型；
所有官方服务均通过百度官网、绘想平台、千帆平台提供；
未授权任何第三方发布模型或收取费用。

请广大用户注意甄别，谨防受骗。

早报 # MuseSteamer 2.0 # 百度 # 蒸汽机2.0

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Gmail 终于支持更改用户名了，但有限制

Gmail 终于支持更改用户名了，但有限制

3个月前

0510

Windows 11画图应用添新特性：工具栏可自动隐藏，AI实验室上线生成式编辑

Windows 11画图应用添新特性：工具栏可自动隐藏，AI实验室上线生成式编辑

早报 # Windows 11 # 画图

3个月前

0470

AI 智能体公司 Manus开发公司蝴蝶效应完成 7500 万美元融资，加速全球化布局

AI 智能体公司 Manus开发公司蝴蝶效应完成 7500 万美元融资，加速全球化布局

早报 # AI 智能体 # Manus # 蝴蝶效应

12个月前

01940

谷歌推出基于 Gemini 2.5 Pro 的 Deep Research，性能超越 ChatGPT Deep Research

谷歌推出基于 Gemini 2.5 Pro 的 Deep Research，性能超越 ChatGPT Deep Research

早报 # ChatGPT Deep Research # Deep Research # Gemini 2.5 Pro

1年前

01660

暂无评论

none

暂无评论...