由中国科学技术大学、上海人工智能实验室、SII 与浙江大学联合提出的新模型 WinT3R(Window-based Streaming Reconstruction with Camera Token Pool),为实时 3D 场景重建提供了一种高效且高精度的解决方案。
该方法旨在解决传统在线 3D 重建系统在重建质量与实时性能之间难以兼顾的问题。WinT3R 通过引入滑动窗口机制和相机令牌池设计,在不显著增加计算负担的前提下,显著提升了相机姿态估计的准确性与点云重建的质量,已在多个标准数据集上验证其领先表现。

为什么需要更好的在线 3D 重建?
在自动驾驶、机器人导航、增强现实(AR)等应用中,系统需从连续图像流中实时构建环境的 3D 结构,并准确估计相机位姿(位置与朝向)。这类任务对低延迟和高几何保真度有双重需求。
然而,现有方法往往面临两难:
- 基于全局优化的方法精度高但延迟大,难以实时运行;
- 轻量级流式模型虽快,却因缺乏历史上下文而导致累积误差或结构缺失。
WinT3R 正是为打破这一权衡而生。
核心功能
WinT3R 支持两大关键能力:
- 实时 3D 点云重建
从单目或立体图像流中持续生成高精度点云图,准确反映场景几何结构。 - 高精度相机姿态估计
每帧输出相机在 3D 空间中的旋转与平移参数,支持后续定位、建图与路径规划。
关键技术创新
1. 滑动窗口机制:平衡局部交互与实时性
WinT3R 以滑动窗口方式处理图像序列,每个窗口包含若干连续帧,相邻窗口重叠一半。窗口内所有帧的特征在解码器中进行充分交互,增强帧间几何一致性。
这种设计使得模型能在有限计算资源下利用多帧上下文,提升重建质量,同时保持流式处理能力,满足实时性要求。
2. 相机令牌池:轻量但高效的全局记忆
每帧图像生成一个紧凑的相机令牌(camera token),编码其位姿先验信息。这些令牌被统一维护在一个可扩展的全局相机令牌池中。
当处理新窗口时,模型将当前窗口的相机令牌与池中所有历史令牌联合输入至相机头,实现对全局运动状态的感知,从而提高位姿估计的稳定性与准确性,避免漂移。
类比:如同 SLAM 系统中的关键帧管理,但以更轻量、端到端的方式实现。
3. 轻量级卷积头:加速点云预测
在点云生成阶段,WinT3R 放弃了计算开销较大的 DPT(Dense Prediction Transformer)头或线性投影头,转而采用轻量级卷积头,在保持预测精度的同时大幅降低推理延迟。
工作流程简述
- 图像编码:每帧图像通过 ViT 编码器提取图像令牌;
- 令牌融合:图像令牌与对应相机令牌拼接,送入滑动窗口;
- 窗口内交互:所有令牌在解码器中交互,生成富集后的特征;
- 双路输出:
- 图像令牌 → 轻量卷积头 → 局部点云图
- 当前相机令牌 + 历史令牌池 → 相机头 → 精确位姿
- 更新令牌池:新生成的相机令牌加入池中,供后续窗口使用。
整个过程以流式方式进行,无需等待完整序列,真正实现“边看边建”。
实验表现:全面领先
在多个权威数据集上的测试表明,WinT3R 在精度、完整性和速度方面均达到当前在线方法的最优水平。
| 指标 | 表现 |
|---|---|
| 3D 重建质量(DTU 数据集) | Overall 误差低至 2.738,优于其他在线方法 |
| 相机姿态估计(Tanks and Temples) | RRA@30 达 94.53%,RTA@30 和 AUC@30 同样领先 |
| 运行速度(KITTI 数据集) | 实现 17.2 FPS,为目前最快在线重建系统 |
定性结果显示,WinT3R 在室内、室外及物体级场景中均能生成更完整、细节更丰富的点云结构,尤其在纹理稀疏或动态光照条件下优势明显。














