上海工程技术大学与北京大学计算机学院联合提出一个开源通用模型 3D-R1,旨在提升3D视觉-语言模型(3D Vision-Language Models, 3D-VLMs)在复杂场景中的推理能力,推动实现统一的3D场景理解。
- 项目主页:https://aigeeksgroup.github.io/3D-R1
- GitHub:https://github.com/AIGeeksGroup/3D-R1
- 模型:https://huggingface.co/AIGeeksGroup/3D-R1
尽管大型视觉-语言模型(VLMs)在2D图像理解任务中已取得显著进展,但将其能力扩展到三维空间仍面临诸多挑战。现有3D-VLMs常因高质量空间数据稀缺和固定视角假设的局限,在面对遮挡、复杂空间关系或动态指令时,推理能力明显不足。

为解决这一问题,研究团队推出了 3D-R1 ——一个专注于增强3D场景理解中推理与泛化能力的基础模型。通过高质量合成数据、强化学习优化与动态视角选择机制,3D-R1 在多个基准上平均提升性能约10%,展现出更强的语义理解与空间推理能力。
为什么我们需要更强的3D视觉语言模型?
设想这样一个场景:
你在厨房中问机器人:“冰箱旁边是什么?”
它不仅要识别出“冰箱”,还要判断其周围物体(比如“一个白色的柜子”),并理解两者之间的空间关系。
接着你下达指令:“帮我清理厨房。”
它需要进一步推理:先移动椅子、再清空垃圾桶、最后擦拭台面——这是一套基于环境理解的行动计划。
这类任务正是当前机器人、智能助手、虚拟现实等应用所追求的核心能力。然而,大多数现有3D-VLMs难以稳定完成上述连贯推理,原因在于:
- 缺乏足够多样且标注精细的3D-语言配对数据;
- 模型通常依赖单一或预设视角,无法主动选择最佳观察角度;
- 推理过程缺乏结构化引导,输出容易偏离事实或逻辑。
3D-R1 正是为此类问题而设计。
3D-R1 能做什么?六类核心任务全覆盖
3D-R1 支持多种3D场景理解任务,涵盖从描述、问答到规划的完整链条:
| 任务类型 | 功能说明 |
|---|---|
| 3D场景密集描述(3D-DC) | 生成对整个场景中物体布局与空间关系的详细描述 |
| 3D物体描述 | 对特定物体进行属性与状态描述(如“红色塑料椅”) |
| 3D问答(3D-QA) | 回答关于场景的自然语言问题(如“灯在哪里?”) |
| 3D对话 | 支持多轮交互式对话,持续跟踪场景状态变化 |
| 3D视觉定位(3D-VG) | 根据语言描述定位对应物体(如“找到最小的茶杯”) |
| 3D推理与规划 | 执行空间推理并生成可执行的操作序列(如“把书放进书架第二层”) |
这些能力使得3D-R1不仅适用于感知任务,也为具身智能(embodied AI)提供了基础支持。
三大关键技术突破
1. 高质量合成数据集 Scene-30K
数据是模型能力的基石。研究团队构建了包含 30,000个高质量样本的合成数据集 Scene-30K,每个样本均包含:
- 真实感3D场景(来自ScanNet等数据集);
- 多轮语言指令与问题;
- 完整的思维链(Chain-of-Thought, CoT)推理路径;
- 准确的空间关系标注。
数据生成流程结合了自动化脚本与 Gemini 2.5 Pro 的语义生成能力,并通过规则过滤确保逻辑一致性与语言流畅性。该数据集作为冷启动训练集,显著提升了模型初始推理能力。
2. 基于强化学习的推理优化(GRPO + 多奖励机制)
在监督微调后,3D-R1 进一步采用 Group Relative Policy Optimization (GRPO) 进行强化学习训练,以优化推理质量。
训练过程中引入三种奖励函数,分别关注不同维度:
| 奖励类型 | 作用 |
|---|---|
| 感知奖励 | 鼓励模型准确识别物体及其位置(IoU、检测精度) |
| 语义相似度奖励 | 衡量生成回答与标准答案的语义匹配度(使用SBERT嵌入计算) |
| 格式奖励 | 确保输出符合预定义结构(如是否包含CoT步骤) |
这种多目标奖励机制有效平衡了准确性、可读性与结构完整性。
3. 动态视角选择策略
由于大多数VLM主干仍以2D图像为输入,如何将3D场景有效投射为2D视图成为关键瓶颈。
3D-R1 引入动态视角选择模块,能够在推理时自动评估多个候选视角的信息量,选择最有利于理解当前任务的视角进行渲染。例如:
- 当被问及“沙发背后有什么?”时,模型会优先选择沙发后方视角;
- 在执行“清空桌面”任务时,则倾向于俯视角度以全面观察物品分布。
这一策略显著弥补了3D表示与2D模型输入之间的鸿沟。
实验结果:全面领先,平均提升10%
在多个主流3D-VL基准测试中,3D-R1 表现出一致且显著的优势:
| 任务 | 数据集 | 指标 | 3D-R1表现 | 相比SOTA提升 |
|---|---|---|---|---|
| 3D场景描述 | ScanRefer | CIDEr | 91.85 | ↑ ~10% |
| 3D问答 | ScanQA | CIDEr (val/test) | 106.45 | ↑ ~10% |
| 3D视觉定位 | ScanRefer | Acc@0.25 / Acc@0.5 | 65.85 / 59.24 | 显著优于基线 |
| 推理与规划 | SQA3D | CIDEr | 138.67 | 当前最优 |
| 推理与规划 | 3D-LLM | BLEU / METEOR / ROUGE-L | 均排名第一 | 综合领先 |
特别是在涉及多跳推理和操作规划的任务中,3D-R1 展现出更强的逻辑连贯性和任务分解能力。
工作流程简述
3D-R1 的训练分为三个阶段:
- 数据构建
利用3D场景生成器与Gemini 2.5 Pro生成带CoT的问答对,经规则过滤形成Scene-30K数据集。 - 冷启动微调
在Scene-30K上对基础3D-VLM进行监督训练,使其具备初步的结构化输出能力。 - 强化学习优化
使用GRPO策略,结合三类奖励函数,迭代优化模型在真实3D场景中的推理表现。
最终模型可在不同视角输入下,完成从感知到决策的端到端推理。















