英伟达、多伦多大学、矢量研究所和德克萨斯大学奥斯汀分校的研究人员推出视频处理引擎ViPE(Video Pose Engine) ,用于从普通视频中估计相机运动、相机内参以及密集的度量深度图,能够从普通视频中输出估计的相机运动和密集的度量深度图。它能够处理多种相机模型,包括标准透视相机、广角相机和 360° 全景相机。
例如,用户可以输入一段日常拍摄的视频,ViPE 能够输出视频中每一帧的相机运动轨迹和深度信息,这些信息对于后续的 3D 重建、视频生成和机器人导航等任务至关重要。

主要功能
- 相机内参估计:ViPE 能够估计视频中每一帧的相机内参,包括焦距、主点等。
- 相机运动估计:ViPE 能够估计视频中每一帧的相机运动轨迹,支持动态场景。
- 密集深度图生成:ViPE 能够生成每一帧的密集深度图,深度图具有度量尺度,可以直接用于 3D 重建。
- 动态对象处理:ViPE 能够识别并处理视频中的动态对象,确保相机运动估计的准确性。
- 多种相机模型支持:ViPE 支持多种相机模型,包括标准透视相机、广角相机和 360° 全景相机。
主要特点
- 高效性:ViPE 在单 GPU 上的运行速度可达 3-5 FPS,适用于标准输入分辨率的视频。
- 鲁棒性:ViPE 在处理动态场景和复杂相机运动时表现出色,能够有效处理动态对象和非刚性运动。
- 度量深度:ViPE 生成的深度图具有度量尺度,可以直接用于 3D 重建和机器人导航。
- 大规模数据集支持:ViPE 用于注释了一个包含 10 万真实世界视频、100 万 AI 生成视频和 2000 个全景视频的大规模数据集,总计约 9600 万帧,所有视频都标注了准确的相机姿态和密集深度图。
工作原理
- 关键帧选择:ViPE 使用关键帧策略,从视频中选择关键帧进行处理,以提高效率和可扩展性。
- 前端跟踪:对于每个新添加的关键帧,ViPE 构建一个图模型,连接最近的几个关键帧,并通过优化求解相机姿态和深度图。
- 后端优化:在后端,ViPE 解决一个完整的 Bundle Adjustment 优化问题,优化所有当前关键帧的相机姿态和内参。
- 姿态填充:对于非关键帧,ViPE 通过构建局部图模型来估计其姿态。
- 密集深度估计:ViPE 使用视频深度估计网络生成每一帧的密集深度图,并通过优化确保深度图与相机姿态一致。
测试结果
- 相机姿态估计:ViPE 在 TUM RGB-D 数据集和 KITTI 数据集上的表现优于现有的未校准姿态估计基线,分别提高了 18% 和 50%。
- 深度估计:ViPE 在 MPI-Sintel 和 ETH3D 数据集上的深度估计表现优于现有的方法,特别是在处理动态场景时表现出色。
- 大规模数据集:ViPE 用于注释的三个数据集(Dynpose-100K++、Wild-SDG-1M 和 Web360)提供了高质量的相机姿态和深度图,总计 9600 万帧,覆盖了多种场景和相机模型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















