在首届技术开放日(TechDay)上,群核科技正式推出空间大模型体系的两大核心更新——新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen,并明确了后续开源节奏。作为业界首个聚焦3D室内场景认知与生成的大模型体系,这两款新品在“结构化3D场景生成”与“AI视频时空一致性”两大关键领域实现突破,同时群核还公布了“空间智能飞轮”战略,计划通过开源共建推动空间智能技术生态发展。
SpatialLM 1.5:一句话生成结构化3D场景,补上机器人训练“数据缺口”
SpatialLM 1.5是群核在空间语言理解领域的迭代升级产品,基于大语言模型训练,核心解决“文本指令到结构化3D场景”的端到端生成问题,尤其针对机器人训练等场景的“数据稀缺”痛点提供解决方案。

1. 核心能力:不止理解文本,更能输出“空间语言”
区别于传统大语言模型仅能解读文本语义、难以理解物理世界几何关系的局限,SpatialLM 1.5的关键突破在于输出“空间语言”——即包含空间结构、物体关系、物理参数的结构化信息。具体表现为:
- 输入文本指令(如“设计一个20㎡的北欧风卧室,包含1.8m双人床、书桌和衣柜”),模型可自动生成场景脚本,智能匹配3D家具模型并完成符合现实逻辑的布局;
- 支持自然语言交互编辑,例如后续补充“将书桌移到窗边”,模型能实时调整布局,且保持物体间物理关系合理(如书桌不遮挡门窗、与墙面距离符合使用习惯)。
2. 核心价值:为机器人训练提供“批量高质量数据”
当前机器人在家庭、办公等室内场景的训练中,常面临“场景数据不足、场景多样性低”的问题——人工构建3D训练场景成本高、效率低,难以覆盖复杂多变的真实环境。而SpatialLM 1.5生成的场景具备两大优势:
- 物理正确性:场景中的物体尺寸、空间位置、物理属性(如承重、碰撞体积)均符合现实逻辑,可直接用于机器人路径规划、避障测试;
- 批量多样性:支持按规则批量生成不同风格、不同布局的场景(如“生成100个不同户型的养老场景”),快速补充训练数据。
现场演示中,群核科技首席科学家周子寒以“机器人养老场景”为例:输入“去客厅餐桌拿药”指令后,SpatialLM 1.5不仅精准识别“餐桌”“药”等物体对象,还自动调用工具规划出避开沙发、桌椅的最优行动路径,直观展现了机器人在复杂家庭环境中的任务执行潜力。
3. 开源基础:前代模型已获行业认可
值得一提的是,SpatialLM系列的前代版本(SpatialLM 1.0)今年3月开源后,迅速登上Hugging Face趋势榜前三,目前已有初创企业基于其代码与架构训练自有模型,验证了该系列模型的技术通用性与开源生态的辐射力。
SpatialGen:破解AI视频“时空一致性”,生成可自由漫游的3D场景
如果说SpatialLM 1.5聚焦“3D场景的理解与交互”,那么SpatialGen则专注于“3D场景的生成与呈现”。作为基于扩散模型架构的多视角图像生成模型,其核心目标是解决当前AI视频生成中的“时空一致性”难题,让生成的3D场景具备“可漫游、高真实”的特性。

1. 技术突破:多视角图像“空间属性不跑偏”
当前主流AI视频工具(文生视频、图生视频)虽降低了创作门槛,但受限于技术原理(多基于2D图像/视频数据训练),常出现“视角切换后物体位置偏移、空间逻辑混乱、遮挡错误”等问题——例如前一帧中在书桌左侧的台灯,切换视角后突然出现在右侧,这便是“时空一致性不足”的典型表现。
SpatialGen通过两大技术支撑破解这一问题:
- 3D空间理解基础:依托群核科技积累的海量室内3D场景数据,模型能理解3D空间结构与物理法则,生成的多视角图像中,同一物体的尺寸、位置、遮挡关系在不同镜头下始终一致;
- 多视角扩散模型:基于扩散模型架构,支持根据“文字描述+参考图像+3D空间布局”生成多视角图像,进一步可转化为3D高斯(3DGS)场景,并渲染出真实感全息漫游视频。
2. 用户体验:像在真实空间中自由穿梭
基于SpatialGen生成的3D高斯场景与漫游视频,用户可获得“沉浸式漫游”体验——例如生成“现代风客厅”场景后,能像在真实房间里一样,从“门口视角”漫步到“沙发视角”,再切换到“阳台视角”,过程中物体的空间关系、光影效果均符合现实逻辑,无明显断层或错乱。
3. 商业化探索:研发全球首款3D融合AI视频生成Agent
群核科技AI产品总监龙天泽透露,基于SpatialGen的技术积累,团队正在研发一款“深度融合3D能力的AI视频生成产品”,计划今年内发布,目标成为“全球首款3D融合AI视频生成Agent”。该产品将构建“3D渲染与视频增强一体化生成管线”,从底层解决时空一致性问题,推动AI视频从“创意工具”向“商业化应用”迈进(如虚拟空间直播、沉浸式产品展示等场景)。
战略布局:启动“空间智能飞轮”,以开源加速生态共建
除了发布两款新模型,群核科技在TechDay上还明确了“空间智能飞轮”战略,以及通过开源推动行业发展的决心。

1. 空间智能飞轮:工具-数据-模型的正向循环
依托旗下酷家乐(全球最大空间设计平台),群核构建了“空间编辑工具→空间合成数据→空间大模型”的闭环飞轮:
- 设计师通过酷家乐工具创作3D场景,沉淀海量结构化数据(截至2025年6月30日,群核已积累超4.41亿个3D模型、超5亿个结构化3D空间场景);
- 这些数据用于训练空间大模型,提升模型对3D场景的理解与生成能力;
- 优化后的模型反哺工具,为用户提供“文本生成场景”“智能布局建议”等功能,提升设计效率;
- 工具体验升级后吸引更多用户,进一步沉淀更丰富的场景数据,形成正向循环。
2. 开源战略:推动空间大模型进入“DeepSeek时刻”
群核科技联合创始人兼董事长黄晓煌表示:“相比大语言模型,当前空间大模型仍处于初级阶段,开源是推动技术快速前进的关键。”事实上,群核从2018年便启动开源战略,逐步开放数据与算法能力,此次新发布的两款模型也将延续这一思路:
- SpatialGen:技术开放日当天已在HuggingFace、GitHub、魔搭社区等平台开放下载,开发者可直接获取使用;
- SpatialLM 1.5:未来将以“SpatialLM-Chat”(对话交互版本)形式完成开源,进一步降低3D场景生成的技术门槛。
黄晓煌提到,群核希望通过开源吸引全球开发者参与,共同完善空间大模型技术体系,推动属于空间大模型的“DeepSeek时刻”(即技术突破后快速普及的关键阶段)尽快来临,最终成为“全球空间智能服务提供商”。















