UltraVideo 与 UltraWAN:首个支持原生 UHD 视频生成的开源数据集与模型

视频模型6个月前更新 小马良
343 0

随着高质量视频内容需求的快速增长,如电影级超高清(UHD)制作、沉浸式媒体和短视频创作,对文本到视频(T2V)模型的能力提出了更高要求。

然而,现有公开数据集在分辨率、图像质量及字幕细节方面存在明显不足,严重制约了相关研究与落地应用的发展。

为此,浙江大学、上海交通大学、华中科技大学与南洋理工大学联合推出:

这套组合不仅填补了当前 T2V 领域在高分辨率内容生成上的空白,也为未来的研究与产业应用提供了坚实基础。

推荐 LoRA 强度

LoRA 版本推荐强度
ultrawan_1k0.25
ultrawan_4k0.5
您可以尝试不同的值,但这些是获得最佳结果的推荐起点。

UltraVideo:首个面向 UHD 视频生成的开源数据集

UltraVideo 是目前首个支持 4K/8K 超高清视频生成 的开源数据集,其核心特点包括:

特性描述
🎥 高清视频内容所有视频均为 4K 或 8K 分辨率(其中 22.4% 为 8K),具备丰富纹理与视觉细节。
📄 结构化字幕系统每个视频配有 9类结构化字幕 + 1个总结性字幕,平均长度达 824 字,支持细粒度语义控制。
🌍 多样化主题覆盖涵盖超过 100 种主题,适用于多种视频生成任务。
🔍 严格筛选流程采用四阶段自动化处理流程,确保数据质量与可用性。

四阶段构建流程详解:

  1. 视频收集:从 YouTube 精选高分辨率视频,排除低质量或非 UHD 内容;
  2. 统计过滤:通过检测黑边、曝光异常、灰度图等问题帧,剔除不合格片段;
  3. 模型净化:使用 Qwen2.5-VL-72B 等大型多模态模型评估美学质量与运动一致性;
  4. 字幕生成:利用开源多模态语言模型自动生成结构化描述,涵盖动作、场景、时间线等多个维度。

UltraWAN:基于 UltraVideo 训练的高性能视频生成模型

在 UltraVideo 数据集的基础上,研究人员进一步扩展 WAN 架构,推出支持 原生 1K / 4K 视频生成 的模型:UltraWAN-1K / UltraWAN-4K

相比传统 T2V 模型,UltraWAN 在多个关键指标上表现出显著优势:

✨ 核心能力亮点:

  • 原生支持 UHD 分辨率:无需后处理即可直接输出 1K 和 4K 视频。
  • 更强的文本可控性:得益于结构化字幕的支持,生成结果与提示词匹配更精准。
  • 更高的视觉质量:生成画面细节更清晰、动态表现更自然、色彩还原更真实。

技术实现要点

UltraWAN 的训练策略经过精心设计,以充分利用 UltraVideo 的高质量数据资源:

方法说明
随机字幕采样在训练过程中,随机选择不同类型的字幕作为输入提示,提升模型对多样化指令的理解能力。
子视频采样机制从每个视频中均匀采样帧序列,保证生成内容与对应字幕的一致性。
LoRA 参数高效微调使用 LoRA 插件进行轻量级训练,降低计算成本与显存占用,同时保持模型性能。

实测效果对比

在多个测试基准与实际案例中,UltraWAN 表现出优于现有主流模型的表现:

📊 定量评估(VBench 基准)

指标UltraWAN-1K 相比 Wan-T2V-1.3B 提升幅度
背景一致性⬆️ 显著提升
动态程度⬆️ 更加自然流畅
美学质量⬆️ 细节更丰富,色彩更真实

👥 定性评估(人类偏好实验)

在视频美学质量、时间稳定性与文本一致性方面,UltraWAN-1K 均获得用户更高评分,展现出更强的实用潜力。

© 版权声明

相关文章

暂无评论

none
暂无评论...