新型视频法线估计模型 NormalCrafter ：能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的法线序列

361 0

香港理工大学、腾讯 PCG ARC 实验室、香港城市大学和华中科技大学的研究人员推出新型视频法线估计模型 NormalCrafter ，它能够从任意长度的开放世界视频中生成具有时间一致性和细粒度细节的法线序列。与现有的图像法线估计方法相比，NormalCrafter 在保持空间精度的同时，显著提升了时间一致性，解决了视频法线估计中的关键挑战。

项目主页：https://normalcrafter.github.io
GitHub：https://github.com/Binyr/NormalCrafter
模型：https://huggingface.co/Yanrui95/NormalCrafter
Demo：https://huggingface.co/spaces/Yanrui95/NormalCrafter
ComfyUI插件：https://github.com/AIWarper/ComfyUI-NormalCrafterWrapper

例如，你有一段视频，视频中有一个旋转的风车，你希望估计出风车表面的法线方向。传统的图像法线估计方法可能只能处理单帧图像，导致视频中法线估计结果出现闪烁或不一致的情况。而 NormalCrafter 可以处理整个视频序列，生成平滑且时间一致的法线估计结果，即使在风车快速旋转的情况下，也能保持法线的准确性和一致性。

主要功能

时间一致性法线估计：能够生成时间上连贯的法线序列，避免视频中的闪烁或不一致现象。
细粒度细节保留：在估计法线时保留丰富的细节，特别是在复杂场景和高频结构区域。
开放世界视频支持：适用于各种长度和复杂度的视频，包括室内、室外和动态场景。
高效训练和推理：通过两阶段训练策略，平衡了长序列的时间建模和高精度的空间细节。

主要特点

语义特征正则化（Semantic Feature Regularization, SFR）：
- 通过将扩散特征与高级语义表示（如 DINO 编码器提取的特征）对齐，引导模型关注场景的内在语义。
- 提高法线估计的准确性和细节保留能力，避免过度平滑。
两阶段训练策略：
- 第一阶段：在潜在空间中训练整个模型，捕捉长序列的时间上下文。
- 第二阶段：在像素空间中微调空间层，提高空间精度，同时保留长序列推理能力。
- 这种策略平衡了时间一致性和空间精度，避免了直接在像素空间训练带来的内存限制。
视频扩散模型（Video Diffusion Models, VDMs）：
- 利用视频扩散模型的固有时间先验，生成时间上连贯的法线序列。
- 通过变分自编码器（VAE）在压缩的潜在空间中高效编码和解码视频帧，降低计算开销。

工作原理

视频法线估计模型构建：
- 使用变分自编码器（VAE）将视频帧编码到潜在空间，并通过解码器重建法线图。
- 通过扩散模型将噪声分布转换为目标数据分布，条件是输入视频的潜在表示。
语义特征正则化（SFR）：
- 提取输入视频帧的 DINO 特征，将扩散模型的中间特征投影到 DINO 特征空间。
- 通过最大化补丁级余弦相似度，对齐扩散特征和 DINO 特征，引导模型关注语义信息。
两阶段训练：
- 第一阶段：在潜在空间中训练整个 U-Net，使用扩散分数匹配（DSM）和 SFR 损失。
- 第二阶段：在像素空间中微调空间层，使用角度损失和 SFR 损失，进一步提高空间精度。

应用场景

3D 重建：在从视频中重建 3D 场景时，法线估计是关键步骤。NormalCrafter 可以提供高质量的法线图，帮助生成更准确的 3D 模型。
视频编辑：在视频后期制作中，法线估计可以用于光照调整、阴影生成等效果。NormalCrafter 的时间一致性确保了视频效果的平滑过渡。
增强现实（AR）和混合现实（MR）：在 AR 和 MR 应用中，法线估计用于实时场景理解，帮助虚拟对象与真实环境自然融合。NormalCrafter 的细粒度细节保留能力可以提升用户体验。
自动驾驶和机器人视觉：在自动驾驶和机器人导航中，法线估计可以帮助理解场景的几何结构，提高环境感知的准确性。NormalCrafter 的高效性和时间一致性使其适合实时应用。
影视制作：在影视特效制作中，法线估计用于生成逼真的光照和阴影效果。NormalCrafter 可以处理复杂的动态场景，提供高质量的法线图，提升视觉效果。