群核科技发布新一代空间大模型：SpatialLM 1.5 与 SpatialGen 正式亮相

491 0

在首届技术开放日（TechDay）上，群核科技正式推出空间大模型体系的两大核心更新——新一代空间语言模型SpatialLM 1.5与空间生成模型SpatialGen，并明确了后续开源节奏。作为业界首个聚焦3D室内场景认知与生成的大模型体系，这两款新品在“结构化3D场景生成”与“AI视频时空一致性”两大关键领域实现突破，同时群核还公布了“空间智能飞轮”战略，计划通过开源共建推动空间智能技术生态发展。

SpatialLM 1.5：一句话生成结构化3D场景，补上机器人训练“数据缺口”

SpatialLM 1.5是群核在空间语言理解领域的迭代升级产品，基于大语言模型训练，核心解决“文本指令到结构化3D场景”的端到端生成问题，尤其针对机器人训练等场景的“数据稀缺”痛点提供解决方案。

群核科技发布新一代空间大模型：SpatialLM 1.5 与 SpatialGen 正式亮相

1. 核心能力：不止理解文本，更能输出“空间语言”

区别于传统大语言模型仅能解读文本语义、难以理解物理世界几何关系的局限，SpatialLM 1.5的关键突破在于输出“空间语言”——即包含空间结构、物体关系、物理参数的结构化信息。具体表现为：

输入文本指令（如“设计一个20㎡的北欧风卧室，包含1.8m双人床、书桌和衣柜”），模型可自动生成场景脚本，智能匹配3D家具模型并完成符合现实逻辑的布局；
支持自然语言交互编辑，例如后续补充“将书桌移到窗边”，模型能实时调整布局，且保持物体间物理关系合理（如书桌不遮挡门窗、与墙面距离符合使用习惯）。

2. 核心价值：为机器人训练提供“批量高质量数据”

当前机器人在家庭、办公等室内场景的训练中，常面临“场景数据不足、场景多样性低”的问题——人工构建3D训练场景成本高、效率低，难以覆盖复杂多变的真实环境。而SpatialLM 1.5生成的场景具备两大优势：

物理正确性：场景中的物体尺寸、空间位置、物理属性（如承重、碰撞体积）均符合现实逻辑，可直接用于机器人路径规划、避障测试；
批量多样性：支持按规则批量生成不同风格、不同布局的场景（如“生成100个不同户型的养老场景”），快速补充训练数据。

现场演示中，群核科技首席科学家周子寒以“机器人养老场景”为例：输入“去客厅餐桌拿药”指令后，SpatialLM 1.5不仅精准识别“餐桌”“药”等物体对象，还自动调用工具规划出避开沙发、桌椅的最优行动路径，直观展现了机器人在复杂家庭环境中的任务执行潜力。

3. 开源基础：前代模型已获行业认可

值得一提的是，SpatialLM系列的前代版本（SpatialLM 1.0）今年3月开源后，迅速登上Hugging Face趋势榜前三，目前已有初创企业基于其代码与架构训练自有模型，验证了该系列模型的技术通用性与开源生态的辐射力。

SpatialGen：破解AI视频“时空一致性”，生成可自由漫游的3D场景

如果说SpatialLM 1.5聚焦“3D场景的理解与交互”，那么SpatialGen则专注于“3D场景的生成与呈现”。作为基于扩散模型架构的多视角图像生成模型，其核心目标是解决当前AI视频生成中的“时空一致性”难题，让生成的3D场景具备“可漫游、高真实”的特性。

1. 技术突破：多视角图像“空间属性不跑偏”

当前主流AI视频工具（文生视频、图生视频）虽降低了创作门槛，但受限于技术原理（多基于2D图像/视频数据训练），常出现“视角切换后物体位置偏移、空间逻辑混乱、遮挡错误”等问题——例如前一帧中在书桌左侧的台灯，切换视角后突然出现在右侧，这便是“时空一致性不足”的典型表现。

SpatialGen通过两大技术支撑破解这一问题：

3D空间理解基础：依托群核科技积累的海量室内3D场景数据，模型能理解3D空间结构与物理法则，生成的多视角图像中，同一物体的尺寸、位置、遮挡关系在不同镜头下始终一致；
多视角扩散模型：基于扩散模型架构，支持根据“文字描述+参考图像+3D空间布局”生成多视角图像，进一步可转化为3D高斯（3DGS）场景，并渲染出真实感全息漫游视频。

2. 用户体验：像在真实空间中自由穿梭

基于SpatialGen生成的3D高斯场景与漫游视频，用户可获得“沉浸式漫游”体验——例如生成“现代风客厅”场景后，能像在真实房间里一样，从“门口视角”漫步到“沙发视角”，再切换到“阳台视角”，过程中物体的空间关系、光影效果均符合现实逻辑，无明显断层或错乱。

3. 商业化探索：研发全球首款3D融合AI视频生成Agent

群核科技AI产品总监龙天泽透露，基于SpatialGen的技术积累，团队正在研发一款“深度融合3D能力的AI视频生成产品”，计划今年内发布，目标成为“全球首款3D融合AI视频生成Agent”。该产品将构建“3D渲染与视频增强一体化生成管线”，从底层解决时空一致性问题，推动AI视频从“创意工具”向“商业化应用”迈进（如虚拟空间直播、沉浸式产品展示等场景）。