
腾讯混元 AI 视频
腾讯已经开源了两款重要的模型——文生视频和图生视频模型,这些工具不仅支持官网上的互动体验,还引入了对口型、动作驱动等创新玩法,并且能够生成背景音效及2K高质量视频。
Tavus 在 FAL平台上推出了一款全新的唇形同步模型——Hummingbird-0。作为研究预览版,这款模型被 Tavus 称为迄今为止测试过的最准确的零样本唇形同步模型,无论是开源还是闭源领域,它都表现出了卓越的性能。
有趣的是,Hummingbird 并非一开始就被设计为一个独立的模型。它是 Tavus 在训练其全脸渲染器 Phoenix-3 时意外诞生的副产品。然而,由于其在零样本条件下的出色表现、快速处理速度和极高的准确性,团队决定将其单独发布,供研究社区和开发者使用。
通过与现有开源和闭源唇形同步模型的对比,Hummingbird-0 在以下方面表现出色:
Tavus 提供了一项基于 Hummingbird-0 的唇形同步服务,允许用户将音频与现有视频同步,生成嘴部动作与音频完美匹配的视频。这项服务特别适合以下场景:
通过 API 提交唇形同步请求,需提供以下参数:
.mp4
)。.mp3
或 .wav
)。video_url
下载最终视频。callback_url
,系统会通过 webhook 通知您任务状态。Tavus 的唇形同步服务提供了以下核心功能:
为了获得最佳效果,请遵循以下建议:
.mp4
.mp3
或 .wav
Hummingbird-0 和 Tavus 的唇形同步服务适用于多种实际应用场景: