如何让一段文字或一张图片,自动生成一个可以自由探索、具备空间一致性且支持后续编辑的三维场景?这是计算机视觉与图形学长期追求的目标。

当前主流方法面临两难:
- 基于视频或多视角图像生成的方法,虽然能产出视觉丰富的结果,但在三维结构上常出现错位,难以支持真实感渲染和交互;
- 基于显式三维表征(如NeRF、网格)的方法,虽能保证几何一致性,但受限于训练数据稀缺和内存开销大,难以扩展到复杂场景。
为突破这一瓶颈,腾讯推出 HunyuanWorld 1.0 —— 一种融合全景图像生成与语义分层三维重建的新型框架。它不仅能根据文本或图像输入生成高质量的360°全景空间,还能进一步构建出结构完整、可导出、可交互的三维世界。
- 项目主页:https://3d-models.hunyuan.tencent.com/world/
- GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
- 模型:https://huggingface.co/tencent/HunyuanWorld-1
- Demo:https://3d.hunyuan.tencent.com/sceneTo3D

核心能力:不止是“看”,更是“进入”与“操作”
HunyuanWorld 1.0 的设计目标明确:生成的不仅是静态画面,而是可沉浸、可探索、可交互的三维环境。其三大核心优势如下:
- 360°全景代理机制
以全景图为“世界代理”,实现对整体场景的空间感知与语义理解,支持用户从任意角度观察,构建真正意义上的沉浸式体验。 - 支持网格导出,兼容主流工具链
生成结果可导出为标准.obj或.glb等格式的3D mesh文件,无缝接入 Unity、Unreal Engine、Blender 等常用引擎与建模软件,便于后续开发与应用。 - 解耦式物体表征,增强交互潜力
场景中的物体以独立语义单元建模,具备位置、边界和类别信息,为后续的物理仿真、对象操作和动态交互打下基础。

技术架构:语义分层 + 生成式建模
HunyuanWorld 1.0 采用两阶段生成流程:
第一阶段:全景生成(Pano Generation)
- 支持 文本到全景图(Text-to-Panorama) 和 图像到全景图(Image-to-Panorama)
- 基于 DiT 架构(Diffusion Transformer),结合球面感知注意力机制,确保360°视野无缝衔接
- 内置智能延展模块,能根据局部输入推理完整空间布局
第二阶段:分层3D重建(Layered 3D Reconstruction)
- 将全景图解析为多个深度层与语义层
- 构建具有空间层次的三维网格表征(Semantic-aware Mesh Representation)
- 实现从2D视觉输入到3D可编辑场景的转换
该方法有效规避了传统NeRF类模型内存占用高、训练成本大的问题,同时提升了场景的结构合理性与编辑灵活性。

开源模型库:即拿即用,灵活适配
HunyuanWorld 1.0 已开源,基于 Flux 框架 实现,具备良好的扩展性,可适配多种图像生成模型(如 Hunyuan Image、Kontext、Stable Diffusion 等)。目前开放以下四个核心模型:
| 模型名称 | 功能描述 | 发布日期 | 大小 | 下载 |
|---|---|---|---|---|
| HunyuanWorld-PanoDiT-Text | 文本生成全景图 | 2025-07-26 | 478MB | Download |
| HunyuanWorld-PanoDiT-Image | 图像生成全景图 | 2025-07-26 | 478MB | Download |
| HunyuanWorld-PanoInpaint-Scene | 场景级全景修复 | 2025-07-26 | 478MB | Download |
| HunyuanWorld-PanoInpaint-Sky | 天空区域修复 | 2025-07-26 | 120MB | Download |
所有模型均托管于 Hugging Face,支持快速部署与二次开发。
性能表现:全面超越现有方案
我们在多个任务上对比了 HunyuanWorld 1.0 与其他开源方法的表现,评估指标包括:
- BRISQUE / NIQE:图像质量(越低越好)
- Q-Align:生成内容与提示语义对齐程度(越高越好)
- CLIP-T / CLIP-I:文本/图像相似度(越高越好)
文生全景图对比
| 方法 | BRISQUE↓ | NIQE↓ | Q-Align↑ | CLIP-T↑ |
|---|---|---|---|---|
| Diffusion360 | 69.5 | 7.5 | 1.8 | 20.9 |
| MVDiffusion | 47.9 | 7.1 | 2.4 | 21.5 |
| LayerPano3D | 49.6 | 6.5 | 3.7 | 21.5 |
| HunyuanWorld 1.0 | 40.8 | 5.8 | 4.4 | 24.3 |
图生全景图对比
| 方法 | BRISQUE↓ | NIQE↓ | Q-Align↑ | CLIP-I↑ |
|---|---|---|---|---|
| Diffusion360 | 71.4 | 7.8 | 1.9 | 73.9 |
| MVDiffusion | 47.7 | 7.0 | 2.7 | 80.8 |
| HunyuanWorld 1.0 | 45.2 | 5.8 | 4.3 | 85.1 |
文生3D世界对比
| 方法 | BRISQUE↓ | NIQE↓ | Q-Align↑ | CLIP-T↑ |
|---|---|---|---|---|
| Director3D | 49.8 | 7.5 | 3.2 | 23.5 |
| LayerPano3D | 35.3 | 4.8 | 3.9 | 22.0 |
| HunyuanWorld 1.0 | 34.6 | 4.3 | 4.2 | 24.0 |
图生3D世界对比
| 方法 | BRISQUE↓ | NIQE↓ | Q-Align↑ | CLIP-I↑ |
|---|---|---|---|---|
| WonderJourney | 51.8 | 7.3 | 3.2 | 81.5 |
| DimensionX | 45.2 | 6.3 | 3.5 | 83.3 |
| HunyuanWorld 1.0 | 36.2 | 4.6 | 3.9 | 84.5 |
数据显示,HunyuanWorld 1.0 在图像质量、语义对齐和跨模态一致性方面均达到当前最优水平。
可视化工具:一键查看生成结果
腾讯提供了一个轻量级的 Web端3D查看器(ModelViewer),用户只需:
- 打开
modelviewer.html - 上传生成的
.glb或.obj文件 - 即可在浏览器中实时漫游、缩放、旋转场景
⚠️ 注意:部分大场景可能因设备性能限制导致加载失败,建议使用现代浏览器并在中高端设备上运行。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















