昆仑万维推出 SkyReels-Audio：多模态驱动、无限长度的高质量会说话肖像视频生成框架

语音模型10个月前发布小马良

299 0

昆仑万维旗下 SkyReels 团队 发布了全新音视频生成模型——SkyReals-Audio，一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。

项目主页：https://skyworkai.github.io/skyreels-audio.github.io
GitHub：https://github.com/SkyworkAI/SkyReels-A2

该模型基于预训练视频扩散变换器（Video Diffusion Transformer），支持通过文本、图像和音频等多模态输入，实现对动态肖像的精细控制与长视频生成，为虚拟人、数字主播、AI 视频创作等领域提供了全新的解决方案。

什么是 SkyReels-Audio？

SkyReels-Audio 是一个音频驱动的肖像视频生成系统，具备以下核心能力：

支持任意长度视频生成
基于多模态输入条件控制（文本 + 图像 + 音频）
实现高保真唇形同步、面部表情与头部动作匹配
确保长时间序列下的视觉一致性与自然流畅

这一框架不仅可用于生成新视频，还可用于对已有视频进行编辑与风格迁移。

主要功能亮点

功能	描述
高保真动态肖像生成	生成与音频高度同步的动态人物形象，涵盖多种表情、口型、头部动作
无限视频生成	支持从单张图片和音频出发，生成任意时长的视频，适用于直播、故事叙述等场景
多模态条件控制	可结合文本描述、参考图像或视频片段，灵活调整生成结果
音频驱动动画生成	利用语音信号自动控制嘴部运动、表情变化，实现自然的视听同步

核心技术特点

✅ 多模态融合：不只是听声“动嘴”

SkyReels-Audio 不仅依赖音频驱动，还引入了文本、图像等多种输入形式，实现了更丰富的内容控制：

输入一张静态肖像图
搭配一段音频（如演讲录音）
再加一句描述（如“情绪激动、动作幅度大”）

即可生成一段自然、生动且与音频完美同步的动态视频。

✅ 时间一致性保障：滑动窗口去噪 + 双向潜在融合

为确保长时间视频的视觉连贯性，SkyReels-Audio 引入了两项关键技术：

滑动窗口去噪机制
- 将长视频划分为重叠窗口处理
- 在相邻帧之间建立语义联系，避免跳跃感
双向潜在空间融合算法
- 融合前后时间段的潜在表示
- 提升时间连续性和画面稳定性

✅ 局部细节增强：面部掩码损失 + 免分类器引导

为了提升关键区域（如嘴唇、眼睛）的表现力，团队引入了：

面部区域掩码损失（Facial Mask Loss）：加强对局部区域的控制精度
音频引导免分类器指导（Audio-Guided CFG）：无需额外标签即可实现高质量音频-视觉同步

✅ 混合课程学习策略：逐步对齐音频与面部动作

SkyReels-Audio 使用了一种渐进式训练方法：

从短片段开始训练，逐步过渡到长序列
使模型逐步掌握音频与面部动作之间的复杂映射关系

这种策略显著提升了模型在复杂语境和多样化表达中的泛化能力。

工作原理简析

SkyReels-Audio 的核心流程如下：

1. 多模态输入处理

音频特征提取：使用 Whisper 编码器提取音频嵌入
图像/视频编码：通过 3D VAE 提取视觉特征，并与噪声拼接
文本描述解析：UMT5 编码器将文本指令转换为上下文嵌入

2. 条件融合与扩散建模

所有模态信息通过交叉注意力机制融合
利用扩散变换器逐步去噪，生成高质量视频帧

3. 时间一致性优化

滑动窗口机制确保帧间过渡自然
双向潜在融合保持长时间一致性

实测性能优异

在 HDTF 数据集上的测试结果显示，SkyReels-Audio 表现出明显优于现有开源模型的性能：

指标	SkyReels-Audio 表现
FID（图像质量）	38.32（越低越好）
FVD（视频动态质量）	364.71（越低越好）
Sync-C（音频同步准确性）	6.06（越高越好）
Sync-D（唇形同步准确率）	9.12% 错误率

此外，在用户调研中，SkyReels-Audio 在身份一致性、表情自然度和唇形同步方面均获得好评。

语音模型 # SkyReels-Audio # 昆仑万维

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

SongBloom：一种实现结构连贯与高保真度的全曲生成新框架

语音模型 # SongBloom # 音乐生成

9个月前

01070

Sesame 团队推出新一代语音技术 CSM：让语音助手更像真人

Sesame 团队推出新一代语音技术 CSM：让语音助手更像真人

语音模型 # CSM # 语音技术

1年前

04130

月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

月之暗面开源端到端语音对话的通用音频模型Kimi-Audio

语音模型 # Kimi-Audio # 月之暗面

12个月前

03410

SoulX-Singer：42,000 小时训练的零样本歌声合成模型，支持 MIDI 与旋律双模式控制

SoulX-Singer：42,000 小时训练的零样本歌声合成模型，支持 MIDI 与旋律双模式控制

语音模型 # SoulX-Singer # 歌声合成模型

2个月前

0340

暂无评论

none

暂无评论...