字节跳动Pico团队推出新型框架EX-4D：从单目视频生成高质量的极端视角 4D 视频

新技术9个月前发布小马良

344 0

字节跳动Pico团队推出新型框架EX-4D，旨在从单目视频生成高质量的极端视角 4D 视频。该框架通过深度防水网格（Depth Watertight Mesh, DW-Mesh）表示法，有效处理边界遮挡问题，确保几何一致性，从而生成视觉上连贯且逼真的结果。

项目主页：https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
GitHub：https://github.com/tau-yihouxiang/EX-4D

例如，给定一个单目视频，其中包含一个动态场景（如一个人在房间内移动），EX-4D 能够生成从极端视角（如 -90° 到 90°）观看的高质量 4D 视频。通过 DW-Mesh 表示法，该框架能够准确模拟遮挡和可见区域的变化，即使在相机移动到极端位置时也能保持几何一致性。

主要功能

极端视角视频生成：从单目视频输入生成高质量的 4D 视频，支持极端视角（如 -90° 到 90°）。
几何一致性：通过 DW-Mesh 表示法，确保生成视频的几何一致性，即使在边界遮挡区域也能保持物理合理性。
无需多视图数据：通过模拟遮挡策略生成有效的训练数据，无需多视图视频数据集。
高效视频合成：使用轻量级 LoRA（Low-Rank Adaptation）视频扩散适配器，高效合成高质量、物理一致且时间连贯的视频。

主要特点

深度防水网格（DW-Mesh）：通过显式建模可见和遮挡区域，确保在极端相机姿态下的几何一致性。
模拟遮挡策略：通过渲染遮挡生成和跟踪遮挡生成，从单目视频中生成有效的训练数据，无需多视图数据集。
轻量级适配器：使用 LoRA 基础的视频扩散适配器，仅需 1% 的可训练参数，高效结合几何信息和预训练视频模型。
高质量视频合成：生成的视频在物理一致性和时间连贯性方面表现出色，特别是在极端视角下。

工作原理

深度防水网格（DW-Mesh）：
- 网格构建：对于每个视频帧，构建一个 DW-Mesh，包括顶点、面、纹理和遮挡属性。通过深度图估计和边界填充策略，生成一个封闭的 3D 网格。
- 渲染：从目标相机轨迹渲染 DW-Mesh，生成颜色视频和遮挡视频，作为几何先验。
- 遮挡处理：通过几何验证（最小面角分析和深度不连续性检测）标记遮挡面，并将纹理值设置为黑色。
模拟遮挡策略：
- 渲染遮挡生成：使用 DW-Mesh 模拟新视角下的遮挡，生成二值可见性遮挡视频。
- 跟踪遮挡生成：通过跟踪点并标记其周围区域的可见性，确保时间连贯性。
轻量级适配器：
- 编码：使用冻结的 Video VAE 编码器提取输入颜色视频和遮挡视频的潜在表示。
- 线性投影：将潜在特征投影到与扩散模型维度对齐的特征空间。
- 特征融合：将投影的几何先验特征与噪声潜在特征相加，注入几何一致性。
- LoRA 适配：使用 LoRA 方法更新预训练视频扩散模型的参数，仅训练适配器参数。

测试结果

客观指标：
- FID（Fréchet Inception Distance）：EX-4D 在小角度（0°-30°）、大角度（0°-60°）和极端角度（0°-90°）范围内的 FID 分别为 44.19、50.30 和 55.42，显著优于基线方法。
- FVD（Fréchet Video Distance）：EX-4D 在所有视角范围内的 FVD 分别为 571.18、685.39 和 823.61，表现出色。
- VBench：EX-4D 在审美质量、成像质量、时间一致性等指标上均优于基线方法。
主观指标：
- 用户研究：50 名参与者对 12 个随机选择的视频序列进行评估，结果显示 EX-4D 在物理一致性和极端视角质量方面获得了 70.70% 的偏好率。

新技术 # EX-4D # 字节跳动

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

基于扩散模型的新型零样本人像视频动画生成技术X-Dyna

基于扩散模型的新型零样本人像视频动画生成技术X-Dyna

新技术 # X-Dyna # 人像视频动画

1年前

02730

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

多模态大语言模型Groma：具备精细化和定位化的视觉感知能力

新技术 # Groma # 多模态大语言模型

2年前

06580

CSD-VAR：从一张图中分离内容与风格的新方法

CSD-VAR：从一张图中分离内容与风格的新方法

新技术 # CSD-VAR

8个月前

02460

视频插帧新技术ZeroSmooth：提升预训练视频扩散模型生成高帧率视频的能力，而无需额外的训练数据和参数更新

视频插帧新技术ZeroSmooth：提升预训练视频扩散模型生成高帧率视频的能力，而无需额外的训练数据和参数更新

新技术 # ZeroSmooth # 视频插帧

2年前

09690

暂无评论

none

暂无评论...