英伟达开源ViPE工具:从普通视频中精准提取3D信息,还附赠9600万帧标注数据集

3D模型3个月前发布 小马良
245 0

在空间AI领域,“3D几何感知”是许多技术落地的基础——无论是AR场景构建、自动驾驶环境感知,还是视频内容的3D重构,都需要精准的相机姿态、内参和深度信息。但长期以来,从野外随机拍摄的视频(如自拍、行车记录仪画面)中,获取一致且精确的3D标注一直是行业痛点。

英伟达近期推出的开源工具ViPE(Video Pose Engine for 3D Geometric Perception),正是为解决这一问题而生。它能从无约束的原始视频中,高效估计相机内参、相机运动轨迹,还能生成密集的近公制深度图,甚至支持360°全景等特殊相机模型。更关键的是,英伟达用ViPE标注了包含9600万帧的大规模数据集,目前已同步开源,为空间AI研发提供了重要支撑。

英伟达开源ViPE工具:从普通视频中精准提取3D信息,还附赠9600万帧标注数据集

ViPE能解决什么问题?——覆盖多场景的3D信息提取能力

不同于传统工具对拍摄场景、相机类型的限制,ViPE的核心优势在于“通用性”和“鲁棒性”,具体可应用于三类典型场景:

  1. 多样化视频类型:无论是动态自拍(人物移动+相机晃动)、电影镜头(复杂运镜),还是行车记录仪(高速移动+室外光线变化),ViPE都能稳定提取3D信息,不受场景动态干扰。
  2. 多相机模型适配:支持针孔相机(普通手机/相机)、广角相机(运动相机)、360°全景相机,无需针对不同设备单独调试参数。
  3. 核心输出三类关键信息
    • 相机内参:包括焦距、主点等决定成像效果的核心参数;
    • 相机运动轨迹:每帧画面中相机的位置和旋转角度,还原拍摄时的运动路径;
    • 密集深度图:与视频分辨率匹配的像素级深度信息,清晰呈现场景中物体的远近关系。

ViPE如何实现精准3D标注?——三类约束保障精度,兼顾效率

ViPE的技术核心,是通过“融合经典SLAM方法与现代深度学习”,构建了一套高效的3D信息提取流程,关键在于三类互补约束的结合:

英伟达开源ViPE工具:从普通视频中精准提取3D信息,还附赠9600万帧标注数据集

1. 核心技术逻辑:三步实现从视频到3D信息的转化

第一步:关键帧优化。ViPE会先从视频中筛选关键帧,在这些帧上求解“密集光束平差(BA)”问题——简单说,就是通过优化相机姿态和场景点位置,让重建结果与视频画面的匹配度最高。
第二步:多约束融合。在优化过程中,引入三类约束确保精度:

  • 密集流约束(来自DROID-SLAM网络):捕捉像素级的运动关系,保证帧与帧之间的对应准确性;
  • 稀疏点约束(来自cuvslam库):提升局部细节的亚像素级精度,减少微小误差;
  • 深度正则化(来自单目公制深度网络):解决单目视频“尺度模糊”的问题,让深度信息更贴近真实物理尺度。
    第三步:深度对齐与填充。通过“平滑深度对齐”步骤,融合光束平差得到的深度与视频深度估计结果,最终生成时间上连贯、分辨率高的公制深度图;非关键帧的姿态则通过连接最近关键帧的局部图来获取,兼顾精度与效率。

2. 性能表现:精度与速度双优

在硬件要求上,ViPE在单个GPU上就能运行,速度可达3-5 FPS,满足常规视频处理需求;在精度上,它在多个权威基准测试中超越主流工具:

  • 在TUM-RGBD(室内场景)和KITTI/RDS(室外驾驶场景)数据集上,姿态和内参精度超过MegaSAM、VGGT、MASt3R-SLAM等方法;
  • 在SINTEL(视频合成场景)和ETH3D(3D重建场景)上,深度精度也达到行业前列,且生成的轨迹具有更稳定的尺度一致性。

配套开源数据集:9600万帧标注,加速空间AI研发

为了让更多开发者能基于ViPE开展研究,英伟达用ViPE标注了三大数据集,总计包含约9600万帧,所有帧均附带准确的相机姿态和密集深度图:

数据集名称包含内容帧数量核心价值
Wild-SDG-1M100万个AI生成视频(从视频扩散模型采样,经内部筛选平衡)约7800万帧提供多样化场景的标准化数据
DynPose-100K++99,501个真实世界视频(源自PANDA-70M数据集,高帧率重新标注)约1570万帧覆盖真实拍摄的动态场景
Web3602000个360°全景视频(来自互联网和游戏,ERP格式)约30万帧填补全景视频3D标注的空白

目前这些数据集已开放下载,开发者可直接用于空间AI模型的训练、测试与优化。

ViPE的行业价值:降低空间AI研发门槛

在此之前,空间AI领域的研究者往往面临“数据短缺”和“工具复杂”两大难题——要么找不到足够多的3D标注数据,要么需要掌握多种工具才能处理不同场景的视频。

ViPE的开源,一方面提供了“一站式”的3D信息提取工具,无需针对不同任务二次开发;另一方面,配套的大规模数据集直接解决了数据稀缺问题。无论是AR/VR内容生成、自动驾驶感知算法优化,还是视频3D重构技术研发,ViPE都能成为重要的基础工具,加速空间AI技术从实验室走向实际应用。

© 版权声明

相关文章

暂无评论

none
暂无评论...