字节跳动Pico团队推出新型框架EX-4D,旨在从单目视频生成高质量的极端视角 4D 视频。该框架通过深度防水网格(Depth Watertight Mesh, DW-Mesh)表示法,有效处理边界遮挡问题,确保几何一致性,从而生成视觉上连贯且逼真的结果。
- 项目主页:https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
- GitHub:https://github.com/tau-yihouxiang/EX-4D
例如,给定一个单目视频,其中包含一个动态场景(如一个人在房间内移动),EX-4D 能够生成从极端视角(如 -90° 到 90°)观看的高质量 4D 视频。通过 DW-Mesh 表示法,该框架能够准确模拟遮挡和可见区域的变化,即使在相机移动到极端位置时也能保持几何一致性。

主要功能
- 极端视角视频生成:从单目视频输入生成高质量的 4D 视频,支持极端视角(如 -90° 到 90°)。
- 几何一致性:通过 DW-Mesh 表示法,确保生成视频的几何一致性,即使在边界遮挡区域也能保持物理合理性。
- 无需多视图数据:通过模拟遮挡策略生成有效的训练数据,无需多视图视频数据集。
- 高效视频合成:使用轻量级 LoRA(Low-Rank Adaptation)视频扩散适配器,高效合成高质量、物理一致且时间连贯的视频。
主要特点
- 深度防水网格(DW-Mesh):通过显式建模可见和遮挡区域,确保在极端相机姿态下的几何一致性。
- 模拟遮挡策略:通过渲染遮挡生成和跟踪遮挡生成,从单目视频中生成有效的训练数据,无需多视图数据集。
- 轻量级适配器:使用 LoRA 基础的视频扩散适配器,仅需 1% 的可训练参数,高效结合几何信息和预训练视频模型。
- 高质量视频合成:生成的视频在物理一致性和时间连贯性方面表现出色,特别是在极端视角下。
工作原理
- 深度防水网格(DW-Mesh):
- 网格构建:对于每个视频帧,构建一个 DW-Mesh,包括顶点、面、纹理和遮挡属性。通过深度图估计和边界填充策略,生成一个封闭的 3D 网格。
- 渲染:从目标相机轨迹渲染 DW-Mesh,生成颜色视频和遮挡视频,作为几何先验。
- 遮挡处理:通过几何验证(最小面角分析和深度不连续性检测)标记遮挡面,并将纹理值设置为黑色。
- 模拟遮挡策略:
- 渲染遮挡生成:使用 DW-Mesh 模拟新视角下的遮挡,生成二值可见性遮挡视频。
- 跟踪遮挡生成:通过跟踪点并标记其周围区域的可见性,确保时间连贯性。
- 轻量级适配器:
- 编码:使用冻结的 Video VAE 编码器提取输入颜色视频和遮挡视频的潜在表示。
- 线性投影:将潜在特征投影到与扩散模型维度对齐的特征空间。
- 特征融合:将投影的几何先验特征与噪声潜在特征相加,注入几何一致性。
- LoRA 适配:使用 LoRA 方法更新预训练视频扩散模型的参数,仅训练适配器参数。

测试结果
- 客观指标:
- FID(Fréchet Inception Distance):EX-4D 在小角度(0°-30°)、大角度(0°-60°)和极端角度(0°-90°)范围内的 FID 分别为 44.19、50.30 和 55.42,显著优于基线方法。
- FVD(Fréchet Video Distance):EX-4D 在所有视角范围内的 FVD 分别为 571.18、685.39 和 823.61,表现出色。
- VBench:EX-4D 在审美质量、成像质量、时间一致性等指标上均优于基线方法。
- 主观指标:
- 用户研究:50 名参与者对 12 个随机选择的视频序列进行评估,结果显示 EX-4D 在物理一致性和极端视角质量方面获得了 70.70% 的偏好率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















