3D-R1：让大模型真正理解三维空间的统一推理模型

128 0

上海工程技术大学与北京大学计算机学院联合提出一个开源通用模型 3D-R1，旨在提升3D视觉-语言模型（3D Vision-Language Models, 3D-VLMs）在复杂场景中的推理能力，推动实现统一的3D场景理解。

尽管大型视觉-语言模型（VLMs）在2D图像理解任务中已取得显著进展，但将其能力扩展到三维空间仍面临诸多挑战。现有3D-VLMs常因高质量空间数据稀缺和固定视角假设的局限，在面对遮挡、复杂空间关系或动态指令时，推理能力明显不足。

为解决这一问题，研究团队推出了 3D-R1 ——一个专注于增强3D场景理解中推理与泛化能力的基础模型。通过高质量合成数据、强化学习优化与动态视角选择机制，3D-R1 在多个基准上平均提升性能约10%，展现出更强的语义理解与空间推理能力。

设想这样一个场景：

你在厨房中问机器人：“冰箱旁边是什么？”
它不仅要识别出“冰箱”，还要判断其周围物体（比如“一个白色的柜子”），并理解两者之间的空间关系。
接着你下达指令：“帮我清理厨房。”
它需要进一步推理：先移动椅子、再清空垃圾桶、最后擦拭台面——这是一套基于环境理解的行动计划。

这类任务正是当前机器人、智能助手、虚拟现实等应用所追求的核心能力。然而，大多数现有3D-VLMs难以稳定完成上述连贯推理，原因在于：

3D-R1 正是为此类问题而设计。

3D-R1 支持多种3D场景理解任务，涵盖从描述、问答到规划的完整链条：

任务类型	功能说明
3D场景密集描述（3D-DC）	生成对整个场景中物体布局与空间关系的详细描述
3D物体描述	对特定物体进行属性与状态描述（如“红色塑料椅”）
3D问答（3D-QA）	回答关于场景的自然语言问题（如“灯在哪里？”）
3D对话	支持多轮交互式对话，持续跟踪场景状态变化
3D视觉定位（3D-VG）	根据语言描述定位对应物体（如“找到最小的茶杯”）
3D推理与规划	执行空间推理并生成可执行的操作序列（如“把书放进书架第二层”）

这些能力使得3D-R1不仅适用于感知任务，也为具身智能（embodied AI）提供了基础支持。

数据是模型能力的基石。研究团队构建了包含 30,000个高质量样本的合成数据集 Scene-30K，每个样本均包含：

数据生成流程结合了自动化脚本与 Gemini 2.5 Pro 的语义生成能力，并通过规则过滤确保逻辑一致性与语言流畅性。该数据集作为冷启动训练集，显著提升了模型初始推理能力。

在监督微调后，3D-R1 进一步采用 Group Relative Policy Optimization (GRPO) 进行强化学习训练，以优化推理质量。

训练过程中引入三种奖励函数，分别关注不同维度：

奖励类型	作用
感知奖励	鼓励模型准确识别物体及其位置（IoU、检测精度）
语义相似度奖励	衡量生成回答与标准答案的语义匹配度（使用SBERT嵌入计算）
格式奖励	确保输出符合预定义结构（如是否包含CoT步骤）

这种多目标奖励机制有效平衡了准确性、可读性与结构完整性。

由于大多数VLM主干仍以2D图像为输入，如何将3D场景有效投射为2D视图成为关键瓶颈。

3D-R1 引入动态视角选择模块，能够在推理时自动评估多个候选视角的信息量，选择最有利于理解当前任务的视角进行渲染。例如：

这一策略显著弥补了3D表示与2D模型输入之间的鸿沟。

在多个主流3D-VL基准测试中，3D-R1 表现出一致且显著的优势：

任务	数据集	指标	3D-R1表现	相比SOTA提升
3D场景描述	ScanRefer	CIDEr	91.85	↑ ~10%
3D问答	ScanQA	CIDEr (val/test)	106.45	↑ ~10%
3D视觉定位	ScanRefer	Acc@0.25 / Acc@0.5	65.85 / 59.24	显著优于基线
推理与规划	SQA3D	CIDEr	138.67	当前最优
推理与规划	3D-LLM	BLEU / METEOR / ROUGE-L	均排名第一	综合领先