字节跳动 Waver 项目组近期正式推出 Waver 1.0 一体化视频生成模型,凭借多模态生成能力、高分辨率支持及卓越的运动建模效果,在视频生成领域实现重要突破,为工业级视频创作需求提供了全新解决方案。
Waver 1.0 核心能力速览
作为下一代通用基础模型家族,Waver 1.0 以 “一体化、高性能、高灵活度” 为核心优势,具体能力可概括为四大亮点:
- 全场景一体化生成:打破文本与图像的模态界限,在单一集成框架内同时支持文本到视频(T2V)、图像到视频(I2V)及文本到图像(T2I)生成,无需切换模型即可满足多类型创作需求。
- 高分辨率与灵活长度适配:最高支持 1080p 高分辨率图像及视频输出,同时兼容 720p、480p 等多分辨率选择,宽高比可灵活调整;视频长度覆盖 2-10 秒区间,既能满足短视频创作,也能适配中短时长的内容生产。
- 权威榜单顶尖性能:截至 2025 年 8 月 5 日 12:00(GMT+8),在 Artificial Analysis 发布的 T2V(文本到视频)排行榜与 I2V(图像到视频)排行榜中,Waver 1.0 均跻身前三。性能上不仅持续优于现有开源模型,部分指标已达到或超越当前最先进的商业解决方案。
- 复杂运动精准建模:针对大规模角色运动、体育场景等传统视频生成的难点,Waver 1.0 实现重大突破 —— 能够精准捕捉复杂运动轨迹,在视频合成中兼顾运动幅度与时间一致性,生成的运动画面更真实、自然,可直接用于实际创作场景。
Waver 1.0 技术架构深度解析
Waver 1.0 的出色表现,源于其在模型架构、分辨率生成、训练策略等方面的技术创新,每一项设计均围绕 “提升生成效率与质量” 展开。
(1)多模态融合的模型架构
为实现一体化生成能力,Waver 1.0 采用 “修正流 Transformer” 为核心的设计思路:
- 潜变量与特征提取:通过 Wan-VAE 获取压缩后的视频潜变量,有效提升模型运行效率;文本特征提取则依托 flan-t5-xxl 与 Qwen2.5-32B-Instruct 两大模型,确保文本理解的精准度。
- 多模态融合方案:采用 “双流 + 单流” 方法融合视频与文本模态,其中两种模态对应的模块数量分别设为 M 和 N;通过调整输入通道(视频标记 16、图像首帧标记 16、任务掩码 4),在单一模型内完成 T2V 与 I2V 的联合训练,且训练过程中会以 20% 的概率融入图像潜变量,进一步提升模态协同效果。
(2)Waver-Refiner:1080p 高分辨率生成的关键
针对高分辨率视频生成效率低的问题,Waver 1.0 配套研发 Waver-Refiner 级联精炼器,采用 DiT 架构并基于流匹配方法训练,具体流程与优势如下:
- 生成逻辑:先将 480p 或 720p 低分辨率视频上采样至 1080p,再对其添加噪声;精炼器以带噪低分辨率视频为输入,输出高质量 1080p 视频。
- 效率优化:引入窗口注意力机制,将推理步骤数减少一半 —— 与直接生成 1080p 视频相比,720p 升级至 1080p 的推理时间减少约 40%,480p 升级至 1080p 的推理时间减少约 60%,大幅降低高分辨率创作的时间成本。
(3)分层递进的训练策略
Waver 1.0 的训练过程注重 “循序渐进”,通过分层提升分辨率,强化模型对运动规律的学习:
- 分辨率阶梯训练:先投入大量计算资源在 192p 低分辨率视频上训练,夯实运动学习基础;再逐步将分辨率提升至 480p、720p,确保模型在不同分辨率下均能稳定捕捉运动细节。
- 精细化参数设置:遵循 SD3 流匹配训练框架,在 480p、720p 训练阶段逐步增加 sigma 移位值(720p 训练时设为 3.0,推理时设为 7.0);时间步采样策略按需调整 ——T2I 任务采用 lognorm (0.5, 1) 概率密度函数,T2V 与 I2V 任务采用 mode (1.29),经实践验证,mode 采样能为视频生成带来更丰富的运动效果。
(4)提示标签:精准控制生成风格与质量
为让模型更好地匹配不同创作需求,Waver 1.0 引入 “提示标签” 技术,通过标签引导实现风格与质量的精准控制:
- 训练阶段标签分配:根据训练数据的视频风格(如真实、动漫、3D 动画)与视频质量,为数据分配对应标签;训练时在文本描述前添加风格提示,在描述末尾添加质量提示,帮助模型建立 “提示 - 输出” 的对应关系。
- 推理阶段提示优化:生成内容时,将 “低清晰度”“慢动作” 等不良质量描述纳入负提示,避免生成低质量内容;若需特定风格(如吉卜力动画风格),则通过提示重写技术,将风格描述添加到整体提示前,确保输出风格符合预期。
例如,针对同一提示 “一名男子和一名女子手牵手在夜晚繁忙的城市街道上行走”,Waver 1.0 可生成 6 种差异化风格作品:真实场景、吉卜力风格 2D 动画、3D 动画、3D 体视动画、迪士尼动画电影风格、卡通绘本风格 2D 动画,充分展现风格控制能力。
(5)推理优化:减少伪影,提升真实感
为进一步优化生成效果,Waver 1.0 在推理环节引入两项关键优化措施:
- APG 技术扩展应用:将 APG(注意力引导优化)技术扩展至视频生成领域,通过将 CFG(分类器引导)中的更新项分解为平行分量与正交分量,并降低平行分量权重,在提升画面真实感的同时,避免过度饱和问题。
- 潜变量标准化策略:对比实验发现,从 [C, H, W] 维度(通道、高度、宽度)对潜变量进行标准化,比从 [C, T, H, W] 维度(通道、时间、高度、宽度)标准化能减少更多画面伪影;经调试,标准化阈值设为 27、引导尺度设为 8 时,可在真实感与伪影控制间取得最佳平衡。
基准评估:两大测试集验证模型实力
为全面验证 Waver 1.0 的综合能力,项目组构建两大专属测试集,并与行业顶尖模型展开对比,结果显示其在多维度评估中表现突出。
1. Waver-Bench 1.0:覆盖全场景的综合测试集
Waver-Bench 1.0 包含 304 个测试样本,场景覆盖体育活动、日常行为、自然风景、动物动态、机械运作、超现实场景、动画创作等多个领域,可全面评估模型在不同场景下的生成能力与运动建模上限。

2. Hermes 运动测试集:聚焦复杂运动的专项评估
针对文本到视频领域 “复杂大幅度运动生成难” 的痛点,项目组构建 Hermes 运动测试集,包含 96 个测试提示,涵盖网球、篮球、体操、划船、拳击、马术等 32 种体育活动,专门用于评估模型对高难度运动的捕捉与生成能力。
3. 与顶尖模型的对比结果
在 Waver-Bench 1.0 与 Hermes 运动测试集的评估中,Waver 1.0 与当前领先的开源模型(如 Stable Video Diffusion)、闭源模型(如 Runway Gen-3)从 “运动质量”“视觉质量”“提示遵循性” 三个核心维度展开对比。经人工评估验证,Waver 1.0 在三项指标上均优于对比模型,尤其在复杂运动场景的生成效果上,优势更为明显。
















