中科大等提出 WinT3R:一种兼顾高精度与实时性的在线 3D 重建新方法

3D模型3个月前发布 小马良
152 0

由中国科学技术大学、上海人工智能实验室、SII 与浙江大学联合提出的新模型 WinT3R(Window-based Streaming Reconstruction with Camera Token Pool),为实时 3D 场景重建提供了一种高效且高精度的解决方案。

该方法旨在解决传统在线 3D 重建系统在重建质量实时性能之间难以兼顾的问题。WinT3R 通过引入滑动窗口机制相机令牌池设计,在不显著增加计算负担的前提下,显著提升了相机姿态估计的准确性与点云重建的质量,已在多个标准数据集上验证其领先表现。

中科大等提出 WinT3R:一种兼顾高精度与实时性的在线 3D 重建新方法

为什么需要更好的在线 3D 重建?

在自动驾驶、机器人导航、增强现实(AR)等应用中,系统需从连续图像流中实时构建环境的 3D 结构,并准确估计相机位姿(位置与朝向)。这类任务对低延迟高几何保真度有双重需求。

然而,现有方法往往面临两难:

  • 基于全局优化的方法精度高但延迟大,难以实时运行;
  • 轻量级流式模型虽快,却因缺乏历史上下文而导致累积误差或结构缺失。

WinT3R 正是为打破这一权衡而生。

核心功能

WinT3R 支持两大关键能力:

  • 实时 3D 点云重建
    从单目或立体图像流中持续生成高精度点云图,准确反映场景几何结构。
  • 高精度相机姿态估计
    每帧输出相机在 3D 空间中的旋转与平移参数,支持后续定位、建图与路径规划。

关键技术创新

1. 滑动窗口机制:平衡局部交互与实时性

WinT3R 以滑动窗口方式处理图像序列,每个窗口包含若干连续帧,相邻窗口重叠一半。窗口内所有帧的特征在解码器中进行充分交互,增强帧间几何一致性。

这种设计使得模型能在有限计算资源下利用多帧上下文,提升重建质量,同时保持流式处理能力,满足实时性要求。

2. 相机令牌池:轻量但高效的全局记忆

每帧图像生成一个紧凑的相机令牌(camera token),编码其位姿先验信息。这些令牌被统一维护在一个可扩展的全局相机令牌池中。

当处理新窗口时,模型将当前窗口的相机令牌与池中所有历史令牌联合输入至相机头,实现对全局运动状态的感知,从而提高位姿估计的稳定性与准确性,避免漂移。

类比:如同 SLAM 系统中的关键帧管理,但以更轻量、端到端的方式实现。

3. 轻量级卷积头:加速点云预测

在点云生成阶段,WinT3R 放弃了计算开销较大的 DPT(Dense Prediction Transformer)头或线性投影头,转而采用轻量级卷积头,在保持预测精度的同时大幅降低推理延迟。

工作流程简述

  1. 图像编码:每帧图像通过 ViT 编码器提取图像令牌;
  2. 令牌融合:图像令牌与对应相机令牌拼接,送入滑动窗口;
  3. 窗口内交互:所有令牌在解码器中交互,生成富集后的特征;
  4. 双路输出
    • 图像令牌 → 轻量卷积头 → 局部点云图
    • 当前相机令牌 + 历史令牌池 → 相机头 → 精确位姿
  5. 更新令牌池:新生成的相机令牌加入池中,供后续窗口使用。

整个过程以流式方式进行,无需等待完整序列,真正实现“边看边建”。

实验表现:全面领先

在多个权威数据集上的测试表明,WinT3R 在精度、完整性和速度方面均达到当前在线方法的最优水平。

指标表现
3D 重建质量(DTU 数据集)Overall 误差低至 2.738,优于其他在线方法
相机姿态估计(Tanks and Temples)RRA@30 达 94.53%,RTA@30 和 AUC@30 同样领先
运行速度(KITTI 数据集)实现 17.2 FPS,为目前最快在线重建系统

定性结果显示,WinT3R 在室内、室外及物体级场景中均能生成更完整、细节更丰富的点云结构,尤其在纹理稀疏或动态光照条件下优势明显。

© 版权声明

相关文章

暂无评论

none
暂无评论...