中科大等提出 WinT3R：一种兼顾高精度与实时性的在线 3D 重建新方法

3D模型6个月前发布小马良

208 0

由中国科学技术大学、上海人工智能实验室、SII 与浙江大学联合提出的新模型 WinT3R（Window-based Streaming Reconstruction with Camera Token Pool），为实时 3D 场景重建提供了一种高效且高精度的解决方案。

项目主页：https://lizizun.github.io/WinT3R.github.io
GitHub：https://github.com/LiZizun/WinT3R

该方法旨在解决传统在线 3D 重建系统在重建质量与实时性能之间难以兼顾的问题。WinT3R 通过引入滑动窗口机制和相机令牌池设计，在不显著增加计算负担的前提下，显著提升了相机姿态估计的准确性与点云重建的质量，已在多个标准数据集上验证其领先表现。

中科大等提出 WinT3R：一种兼顾高精度与实时性的在线 3D 重建新方法

为什么需要更好的在线 3D 重建？

在自动驾驶、机器人导航、增强现实（AR）等应用中，系统需从连续图像流中实时构建环境的 3D 结构，并准确估计相机位姿（位置与朝向）。这类任务对低延迟和高几何保真度有双重需求。

然而，现有方法往往面临两难：

基于全局优化的方法精度高但延迟大，难以实时运行；
轻量级流式模型虽快，却因缺乏历史上下文而导致累积误差或结构缺失。

WinT3R 正是为打破这一权衡而生。

核心功能

WinT3R 支持两大关键能力：

实时 3D 点云重建
从单目或立体图像流中持续生成高精度点云图，准确反映场景几何结构。
高精度相机姿态估计
每帧输出相机在 3D 空间中的旋转与平移参数，支持后续定位、建图与路径规划。

关键技术创新

1. 滑动窗口机制：平衡局部交互与实时性

WinT3R 以滑动窗口方式处理图像序列，每个窗口包含若干连续帧，相邻窗口重叠一半。窗口内所有帧的特征在解码器中进行充分交互，增强帧间几何一致性。

这种设计使得模型能在有限计算资源下利用多帧上下文，提升重建质量，同时保持流式处理能力，满足实时性要求。

2. 相机令牌池：轻量但高效的全局记忆

每帧图像生成一个紧凑的相机令牌（camera token），编码其位姿先验信息。这些令牌被统一维护在一个可扩展的全局相机令牌池中。

当处理新窗口时，模型将当前窗口的相机令牌与池中所有历史令牌联合输入至相机头，实现对全局运动状态的感知，从而提高位姿估计的稳定性与准确性，避免漂移。

类比：如同 SLAM 系统中的关键帧管理，但以更轻量、端到端的方式实现。

3. 轻量级卷积头：加速点云预测

在点云生成阶段，WinT3R 放弃了计算开销较大的 DPT（Dense Prediction Transformer）头或线性投影头，转而采用轻量级卷积头，在保持预测精度的同时大幅降低推理延迟。

工作流程简述

图像编码：每帧图像通过 ViT 编码器提取图像令牌；
令牌融合：图像令牌与对应相机令牌拼接，送入滑动窗口；
窗口内交互：所有令牌在解码器中交互，生成富集后的特征；
双路输出：
- 图像令牌 → 轻量卷积头 → 局部点云图
- 当前相机令牌 + 历史令牌池 → 相机头 → 精确位姿
更新令牌池：新生成的相机令牌加入池中，供后续窗口使用。

整个过程以流式方式进行，无需等待完整序列，真正实现“边看边建”。

实验表现：全面领先

在多个权威数据集上的测试表明，WinT3R 在精度、完整性和速度方面均达到当前在线方法的最优水平。

指标	表现
3D 重建质量（DTU 数据集）	Overall 误差低至 2.738，优于其他在线方法
相机姿态估计（Tanks and Temples）	RRA@30 达 94.53%，RTA@30 和 AUC@30 同样领先
运行速度（KITTI 数据集）	实现 17.2 FPS，为目前最快在线重建系统

定性结果显示，WinT3R 在室内、室外及物体级场景中均能生成更完整、细节更丰富的点云结构，尤其在纹理稀疏或动态光照条件下优势明显。

3D模型 # 3D 重建 # WinT3R

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯开源高效3D生成模型 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

腾讯开源高效3D生成模型 Hunyuan3D-1.0：首个同时支持文生和图生的 3D 开源大模型

3D模型 # 3D 开源大模型 # Hunyuan3D-1.0 # 腾讯

1年前

04240

阿里巴巴推出全身虚拟形象解决方案TaoAvatar：在AR设备上实时运行一个会说话的全身虚拟人

阿里巴巴推出全身虚拟形象解决方案TaoAvatar：在AR设备上实时运行一个会说话的全身虚拟人

3D模型 # TaoAvatar # 虚拟形象 # 阿里巴巴

11个月前

02580

苹果提出 SHARPA：单图生成 3D 高斯模型，实现秒级实时视图合成

苹果提出 SHARPA：单图生成 3D 高斯模型，实现秒级实时视图合成

3D模型 # 3D 高斯模型 # SHARPA

2个月前

0890

北大、字节跳动与卡内基梅隆大学联合推出MoVieS：一秒钟完成4D动态视角合成的革命性模型

北大、字节跳动与卡内基梅隆大学联合推出MoVieS：一秒钟完成4D动态视角合成的革命性模型

3D模型 # MoVieS # 前馈模型

8个月前

01830

暂无评论

none

暂无评论...