LatticeWorld：基于多模态指令的高效 3D 世界生成框架

113 0

由网易、北京航空航天大学、清华大学与香港城市大学联合研究团队提出，LatticeWorld 是一个面向复杂 3D 虚拟环境自动生成的新框架。它通过融合轻量级大型语言模型（LLM）与工业级渲染引擎，探索了一条从多模态指令到可交互 3D 场景的端到端生成路径。

该框架支持以文本描述和视觉输入（如草图、高度图）作为引导，自动构建包含动态智能体、具备高保真物理特性的大规模虚拟世界，已在游戏开发、具身 AI 训练和自动驾驶仿真等场景中展现出显著潜力。

最重要的是，在保持创意质量的前提下，LatticeWorld 将传统人工建模流程的生产效率提升超过 90 倍。

在具身智能、自动驾驶测试、元宇宙应用等领域，对高质量 3D 环境的需求持续增长。然而，当前主流方式仍依赖美术人员手工建模，存在三大瓶颈：

尽管已有部分研究尝试用 AI 自动生成 3D 内容，但多数局限于静态几何或低物理保真度，无法满足真实任务需求。

LatticeWorld 的目标，正是解决这一“高真实性”与“高生成效率”难以兼顾的问题。

LatticeWorld 并非替代现有图形管线，而是作为上游智能层，嵌入到成熟的工业流程中。其核心设计思想是：用轻量模型做决策，用专业引擎做执行。

框架整体分为三个阶段：

输入：文本指令（如“一片被雪山环绕的湖泊”）+ 视觉先验（如地形高度图或手绘草图）
处理：由训练好的多模态 LLM（LLML）解析输入，输出结构化符号表示（例如对象类别、相对位置、层级关系）
输出：转换为渲染引擎可读的布局张量（scene layout tensor），用于后续实例化

模型采用轻量级 LLaMA-2-7B 架构，经特定领域数据微调，在推理速度与语义准确性之间取得平衡。

基于已生成的布局，进一步细化环境属性：

此阶段由专用配置模型（LLMC）完成，确保语义一致性与物理合理性。

将生成的布局与配置导入 Unreal Engine 5 等工业级引擎，完成最终资源绑定、光照烘焙与物理模拟设置。生成的世界支持：

此外，用户可通过主控角色进入场景，与其他代理进行实时互动，适用于训练和测试闭环系统。

不同于仅依赖文本提示的方法，LatticeWorld 允许用户通过多种方式表达意图：

这种灵活性显著提升了生成结果的可控性与实用性。

生成的环境中可包含多个具备感知与决策能力的智能体，支持预设行为模式，例如：

这使得 LatticeWorld 不仅能生成“静态布景”，更能构建可用于算法验证的“活”的世界。

研究团队在多个基准任务上对 LatticeWorld 进行了全面测试，关键结果如下：

指标	表现
📐 场景布局准确率	在固定与可变地形条件下均优于 GPT-4o、Claude 3.7 Sonnet、DeepSeek-R1 和 Qwen2-VL-Max
🖼️ 视觉保真度（FID）	相比基线方法平均降低 28%
⏱️ 单场景生成时间	平均 42 秒（含模型推理与引擎初始化）
🔄 生产效率提升	较传统人工流程提速 90 倍以上
🤖 智能体行为合理性	用户调研显示 86% 认为其行为符合预期

尤其值得注意的是，在“山地湖畔村落”“城市交叉路口”等复杂自然与城市场景中，LatticeWorld 能稳定生成语义合理、空间协调的结果，且无需后期人工修正。