商汤开源SenseNova-SI:面向空间智能的多模态模型

当前主流多模态基础模型在文本、图像理解、推理和生成任务上已取得显著进展,但在空间智能(Spatial Intelligence)方面仍存在系统性短板。具体表现为:

  • 对物体尺度、距离、比例的估计不准确
  • 难以理解三维空间结构与几何关系
  • 对视角变化(如旋转、遮挡)缺乏鲁棒性
  • 在复杂场景中难以整合多源空间信息

为系统性提升模型的空间理解能力,商汤科技从尺度效应(Scaling)视角出发,构建了一个大规模、多样化的空间智能训练数据集,并在通用多模态基础模型上进行持续微调,形成了 SenseNova-SI 模型系列

模型版本与兼容性

本次开源发布包括两个版本:

  • SenseNova-SI-InternVL3-2B
  • SenseNova-SI-InternVL3-8B

模型基于流行的开源架构 InternVL3 构建,旨在与现有研究流程保持兼容,便于社区复现、评估与二次开发。模型权重与训练细节已公开。

评估结果

SenseNova-SI 在四个近期发布、专注于空间能力的基准测试中进行了评估:

  • VSI(Visual Spatial Intelligence)
  • MMSI(Multimodal Spatial Inference)
  • MindCube
  • ViewSpatial

在同等模型规模下,SenseNova-SI 在上述基准上均达到当前开源模型的最佳性能(SOTA)。

商汤开源SenseNova-SI:面向空间智能的多模态模型

具体而言,SenseNova-SI-8B 的平均得分如下:

模型平均得分
SenseNova-SI-8B60.99
Qwen3-VL-8B40.16
BAGEL-7B35.01
SpatialMLLM35.05
ViLaSR-7B36.41
GPT-5(闭源)49.68
Gemini-2.5-Pro(闭源)48.81

注:闭源模型数据来自官方或第三方公开评测,非直接对比实验。

结果显示,SenseNova-SI-8B 在显著更小的参数量下(8B vs. 闭源模型估计的数百B),在空间任务上表现优于所列闭源系统。这表明,针对特定能力进行数据与训练策略优化,可在垂直领域超越更大通用模型

技术意义

商汤指出,空间智能是具身智能体(Embodied Agents)与物理世界交互的基础能力。当前大模型虽在语言、知识、编程等任务上表现优异,但在需要理解“物体在哪里”“如何移动”“从哪个角度看”的任务中仍显不足。

SenseNova-SI 的探索表明:

  • 空间能力可通过专用数据集+持续训练有效提升
  • 尺度效应不仅存在于通用任务,在垂直能力上同样存在
  • 即使中等规模模型,也能在特定领域达到领先水平

该工作为多模态模型的垂直能力优化提供了可复现路径。

© 版权声明

相关文章

暂无评论

none
暂无评论...