腾讯开源3D世界生成模型HunyuanWorld 1.0：从文本或图像生成可漫游、可交互的三维世界

3D模型9个月前发布小马良

189 0

如何让一段文字或一张图片，自动生成一个可以自由探索、具备空间一致性且支持后续编辑的三维场景？这是计算机视觉与图形学长期追求的目标。

当前主流方法面临两难：

基于视频或多视角图像生成的方法，虽然能产出视觉丰富的结果，但在三维结构上常出现错位，难以支持真实感渲染和交互；
基于显式三维表征（如NeRF、网格）的方法，虽能保证几何一致性，但受限于训练数据稀缺和内存开销大，难以扩展到复杂场景。

为突破这一瓶颈，腾讯推出 HunyuanWorld 1.0 —— 一种融合全景图像生成与语义分层三维重建的新型框架。它不仅能根据文本或图像输入生成高质量的360°全景空间，还能进一步构建出结构完整、可导出、可交互的三维世界。

项目主页：https://3d-models.hunyuan.tencent.com/world/
GitHub：https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
模型：https://huggingface.co/tencent/HunyuanWorld-1
Demo：https://3d.hunyuan.tencent.com/sceneTo3D

核心能力：不止是“看”，更是“进入”与“操作”

HunyuanWorld 1.0 的设计目标明确：生成的不仅是静态画面，而是可沉浸、可探索、可交互的三维环境。其三大核心优势如下：

360°全景代理机制
以全景图为“世界代理”，实现对整体场景的空间感知与语义理解，支持用户从任意角度观察，构建真正意义上的沉浸式体验。
支持网格导出，兼容主流工具链
生成结果可导出为标准 .obj 或 .glb 等格式的3D mesh文件，无缝接入 Unity、Unreal Engine、Blender 等常用引擎与建模软件，便于后续开发与应用。
解耦式物体表征，增强交互潜力
场景中的物体以独立语义单元建模，具备位置、边界和类别信息，为后续的物理仿真、对象操作和动态交互打下基础。

技术架构：语义分层 + 生成式建模

HunyuanWorld 1.0 采用两阶段生成流程：

第一阶段：全景生成（Pano Generation）

支持 文本到全景图（Text-to-Panorama） 和 图像到全景图（Image-to-Panorama）
基于 DiT 架构（Diffusion Transformer），结合球面感知注意力机制，确保360°视野无缝衔接
内置智能延展模块，能根据局部输入推理完整空间布局

第二阶段：分层3D重建（Layered 3D Reconstruction）

将全景图解析为多个深度层与语义层
构建具有空间层次的三维网格表征（Semantic-aware Mesh Representation）
实现从2D视觉输入到3D可编辑场景的转换

该方法有效规避了传统NeRF类模型内存占用高、训练成本大的问题，同时提升了场景的结构合理性与编辑灵活性。

开源模型库：即拿即用，灵活适配

HunyuanWorld 1.0 已开源，基于 Flux 框架 实现，具备良好的扩展性，可适配多种图像生成模型（如 Hunyuan Image、Kontext、Stable Diffusion 等）。目前开放以下四个核心模型：

模型名称	功能描述	发布日期	大小	下载
HunyuanWorld-PanoDiT-Text	文本生成全景图	2025-07-26	478MB	Download
HunyuanWorld-PanoDiT-Image	图像生成全景图	2025-07-26	478MB	Download
HunyuanWorld-PanoInpaint-Scene	场景级全景修复	2025-07-26	478MB	Download
HunyuanWorld-PanoInpaint-Sky	天空区域修复	2025-07-26	120MB	Download

所有模型均托管于 Hugging Face，支持快速部署与二次开发。

性能表现：全面超越现有方案

我们在多个任务上对比了 HunyuanWorld 1.0 与其他开源方法的表现，评估指标包括：

BRISQUE / NIQE：图像质量（越低越好）
Q-Align：生成内容与提示语义对齐程度（越高越好）
CLIP-T / CLIP-I：文本/图像相似度（越高越好）

文生全景图对比

方法	BRISQUE↓	NIQE↓	Q-Align↑	CLIP-T↑
Diffusion360	69.5	7.5	1.8	20.9
MVDiffusion	47.9	7.1	2.4	21.5
LayerPano3D	49.6	6.5	3.7	21.5
HunyuanWorld 1.0	40.8	5.8	4.4	24.3

图生全景图对比

方法	BRISQUE↓	NIQE↓	Q-Align↑	CLIP-I↑
Diffusion360	71.4	7.8	1.9	73.9
MVDiffusion	47.7	7.0	2.7	80.8
HunyuanWorld 1.0	45.2	5.8	4.3	85.1

文生3D世界对比

方法	BRISQUE↓	NIQE↓	Q-Align↑	CLIP-T↑
Director3D	49.8	7.5	3.2	23.5
LayerPano3D	35.3	4.8	3.9	22.0
HunyuanWorld 1.0	34.6	4.3	4.2	24.0

图生3D世界对比

方法	BRISQUE↓	NIQE↓	Q-Align↑	CLIP-I↑
WonderJourney	51.8	7.3	3.2	81.5
DimensionX	45.2	6.3	3.5	83.3
HunyuanWorld 1.0	36.2	4.6	3.9	84.5

数据显示，HunyuanWorld 1.0 在图像质量、语义对齐和跨模态一致性方面均达到当前最优水平。

可视化工具：一键查看生成结果

腾讯提供了一个轻量级的 Web端3D查看器（ModelViewer），用户只需：

打开 modelviewer.html
上传生成的 .glb 或 .obj 文件
即可在浏览器中实时漫游、缩放、旋转场景

⚠️ 注意：部分大场景可能因设备性能限制导致加载失败，建议使用现代浏览器并在中高端设备上运行。

3D模型 # 3D世界生成模型 # HunyuanWorld 1.0 # 腾讯

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

腾讯发布业界首个“美术级”AI 3D 生成模型Hunyuan3D-PolyGen

腾讯发布业界首个“美术级”AI 3D 生成模型Hunyuan3D-PolyGen

3D模型 # Hunyuan3D-PolyGen # 腾讯

9个月前

01580

腾讯推出混元自研深度思考模型 T1 正式版：吐字快、能秒回，擅长超长文处理

腾讯推出混元自研深度思考模型 T1 正式版：吐字快、能秒回，擅长超长文处理

大语言模型 # 混元 T1 # 腾讯

1年前

03040

腾讯发布混元 2.0 大模型：406B MoE 架构，256K 上下文，推理效率国内领先

腾讯发布混元 2.0 大模型：406B MoE 架构，256K 上下文，推理效率国内领先

大语言模型 # 混元 2.0 大模型 # 腾讯

4个月前

0540

腾讯混元推出混元3D-Part：让3D模型像乐高一样“可拆解”

腾讯混元推出混元3D-Part：让3D模型像乐高一样“可拆解”

3D模型 # Hunyuan3D-Part # 混元3D-Part

6个月前

01820

暂无评论

none

暂无评论...