Long Volumetric Video：高效地表示和渲染长时间的体积视频

149 0

浙江大学、斯坦福大学和香港科技大学的研究人员发布论文，主题是关于如何高效地表示和渲染长时间的体积视频（Long Volumetric Video）。体积视频是一种能够从多个视角捕捉动态场景并提供自由视点合成能力的技术，它在增强现实/虚拟现实（AR/VR）、游戏、远程presence等领域有着重要的应用。然而，传统的体积视频系统通常需要特殊的硬件和复杂的工作室设置，限制了它们的普及和实用性。此外，现有的基于神经网络的渲染方法虽然能够基于隐式或显式的4D表示进行动态场景的高质量视图合成，但它们通常只能处理较短的视频片段，并且在处理更长视频时会面临巨大的内存占用和存储需求。

项目主页：https://zju3dv.github.io/longvolcap

例如，我们想要在虚拟现实中重现一个篮球比赛的场景。使用这项技术，我们可以从多个摄像机角度捕捉整个比赛，然后使用Temporal Gaussian Hierarchy方法来构建一个紧凑的4D体积视频。这个视频不仅能够以高帧率实时渲染，而且占用的存储空间小，使得用户能够在VR中体验到仿佛身临其境的篮球比赛。

主要功能：

该研究提出了一种新颖的4D表示方法，名为“Temporal Gaussian Hierarchy”（TGH），用于紧凑地建模长时间体积视频。这种方法能够高效地从多视角RGB视频中重建体积视频，并保持实时渲染能力。

主要特点：

高效的4D表示：通过构建一个多层次的4D高斯原语（Gaussian primitives）结构，每个层次独立描述场景中变化程度不同的区域。
实时渲染：支持高达450 FPS的实时渲染速度，同时保持高质量。
存储和内存效率：相比于现有技术，该方法在存储和显存使用上有显著的减少，实现了30倍和26倍的缩减。

工作原理：

Temporal Gaussian Hierarchy：该方法的核心是构建一个多层次的高斯原语结构，每个层次包含多个时间段，每个时间段负责模拟不同时间尺度的场景。通过这种方式，可以有效地表示动态场景中的不同运动和动态。
Compact Appearance Model：该模型结合了漫反射和视角依赖的高斯，以最小化模型大小，同时保持渲染质量。
硬件加速的光栅化管线：为了提高渲染速度，研究者开发了基于硬件加速技术的光栅化管线，以提高渲染效率。