百度蒸汽机2.0 上线:首次实现多人有声视频一体化生成

早报4个月前更新 小马良
286 0

百度正式发布 MuseSteamer 2.0 —— 其音视频一体化生成模型的重大升级版本,在行业内首次实现多人有声视频的端到端联合生成

百度蒸汽机2.0 上线:首次实现多人有声视频一体化生成

这意味着,用户只需输入一段文字描述,系统即可自动生成包含多个角色、同步语音、自然表情与动作、复杂运镜的完整视频内容,无需后期配音、剪辑或合成。

此次升级标志着国内AIGC在多模态生成领域迈出关键一步,也为影视、教育、广告等行业的内容生产提供了新的自动化路径。

百度蒸汽机2.0 上线:首次实现多人有声视频一体化生成

核心能力:从“单人无声”到“多人有声”的跨越

相比此前主流视频生成模型多集中于单人场景、无声或后期配声的局限,MuseSteamer 2.0 实现了多项突破:

✅ 多人音视频一体化生成

  • 支持多个角色在同一场景中对话或互动;
  • 每个角色的语音、口型、表情、动作均与文本指令同步生成;
  • 语音与画面严格对齐,无须后期配音或调整时序。

示例:输入“两位主持人在一档科技节目中讨论AI进展”,模型可生成两人交替发言、眼神交流、手势配合、语音同步的完整片段。

✅ 电影级表演与细腻表达

  • 角色具备自然微表情(眨眼、皱眉、微笑等);
  • 动作流畅,支持站立、走动、手势等常见行为;
  • 面部口型精准匹配语音内容,提升真实感。

✅ 复杂运镜与镜头语言

  • 支持推拉、摇移、切换视角等运镜指令;
  • 可指定“特写”“全景”“跟拍”等镜头类型;
  • 镜头切换逻辑合理,增强叙事表现力。

✅ 流畅画质与稳定输出

  • 输出分辨率高,动作连贯无抖动;
  • 时序一致性强,长视频生成稳定性提升。

技术底座:三大核心能力支撑

MuseSteamer 2.0 的突破建立在三项关键技术之上:

  1. 多模态时空规划架构
    统一建模文本、音频、图像、运动的时空关系,确保语音、动作、镜头变化在时间轴上精确对齐。
  2. 中文场景深度优化
    针对中文语境下的表达习惯、语音节奏、文化场景进行专项训练,提升生成内容的本土适配性。
  3. 音视端到端联合建模
    不再将音频与视频分离生成,而是通过统一模型同时输出音轨与画面,从根本上解决音画不同步问题。

产品矩阵全面开放

为满足不同用户需求,MuseSteamer 推出多个版本,现已全面开放:

版本适用场景特点
Turbo高速生成快速出片,适合短视频、社交媒体内容
Lite轻量使用低资源消耗,适合个人创作者
Pro专业制作高精度、高分辨率,支持复杂指令
全系有声版音视频同步所有版本均支持语音同步生成

如何体验?

  • 个人用户:百度搜索“百度蒸汽机”或访问“绘想”平台直接使用;
  • 企业用户:可通过“千帆大模型平台”调用高性能API服务,支持定制化部署与批量生成。

安全提示:警惕假冒网站

8月19日,百度发布安全声明:近期海外出现大量仿冒“百度蒸汽机(MuseSteamer)”的虚假网站,宣称提供下载、训练或付费服务。

百度强调:

  • MuseSteamer 为百度自主研发模型;
  • 所有官方服务均通过百度官网、绘想平台、千帆平台提供;
  • 未授权任何第三方发布模型或收取费用。

请广大用户注意甄别,谨防受骗。

© 版权声明

相关文章

暂无评论

none
暂无评论...