腾讯开源3D世界生成模型HunyuanWorld 1.0:从文本或图像生成可漫游、可交互的三维世界

3D模型4个月前发布 小马良
99 0

如何让一段文字或一张图片,自动生成一个可以自由探索、具备空间一致性且支持后续编辑的三维场景?这是计算机视觉与图形学长期追求的目标。

当前主流方法面临两难:

  • 基于视频或多视角图像生成的方法,虽然能产出视觉丰富的结果,但在三维结构上常出现错位,难以支持真实感渲染和交互;
  • 基于显式三维表征(如NeRF、网格)的方法,虽能保证几何一致性,但受限于训练数据稀缺和内存开销大,难以扩展到复杂场景。

为突破这一瓶颈,腾讯推出 HunyuanWorld 1.0 —— 一种融合全景图像生成与语义分层三维重建的新型框架。它不仅能根据文本或图像输入生成高质量的360°全景空间,还能进一步构建出结构完整、可导出、可交互的三维世界。

核心能力:不止是“看”,更是“进入”与“操作”

HunyuanWorld 1.0 的设计目标明确:生成的不仅是静态画面,而是可沉浸、可探索、可交互的三维环境。其三大核心优势如下:

  1. 360°全景代理机制
    以全景图为“世界代理”,实现对整体场景的空间感知与语义理解,支持用户从任意角度观察,构建真正意义上的沉浸式体验。
  2. 支持网格导出,兼容主流工具链
    生成结果可导出为标准 .obj  .glb 等格式的3D mesh文件,无缝接入 Unity、Unreal Engine、Blender 等常用引擎与建模软件,便于后续开发与应用。
  3. 解耦式物体表征,增强交互潜力
    场景中的物体以独立语义单元建模,具备位置、边界和类别信息,为后续的物理仿真、对象操作和动态交互打下基础。

技术架构:语义分层 + 生成式建模

HunyuanWorld 1.0 采用两阶段生成流程:

第一阶段:全景生成(Pano Generation)

  • 支持 文本到全景图(Text-to-Panorama)  图像到全景图(Image-to-Panorama)
  • 基于 DiT 架构(Diffusion Transformer),结合球面感知注意力机制,确保360°视野无缝衔接
  • 内置智能延展模块,能根据局部输入推理完整空间布局

第二阶段:分层3D重建(Layered 3D Reconstruction)

  • 将全景图解析为多个深度层与语义层
  • 构建具有空间层次的三维网格表征(Semantic-aware Mesh Representation)
  • 实现从2D视觉输入到3D可编辑场景的转换

该方法有效规避了传统NeRF类模型内存占用高、训练成本大的问题,同时提升了场景的结构合理性与编辑灵活性。

开源模型库:即拿即用,灵活适配

HunyuanWorld 1.0 已开源,基于 Flux 框架 实现,具备良好的扩展性,可适配多种图像生成模型(如 Hunyuan Image、Kontext、Stable Diffusion 等)。目前开放以下四个核心模型:

模型名称功能描述发布日期大小下载
HunyuanWorld-PanoDiT-Text文本生成全景图2025-07-26478MBDownload
HunyuanWorld-PanoDiT-Image图像生成全景图2025-07-26478MBDownload
HunyuanWorld-PanoInpaint-Scene场景级全景修复2025-07-26478MBDownload
HunyuanWorld-PanoInpaint-Sky天空区域修复2025-07-26120MBDownload

所有模型均托管于 Hugging Face,支持快速部署与二次开发。

性能表现:全面超越现有方案

我们在多个任务上对比了 HunyuanWorld 1.0 与其他开源方法的表现,评估指标包括:

  • BRISQUE / NIQE:图像质量(越低越好)
  • Q-Align:生成内容与提示语义对齐程度(越高越好)
  • CLIP-T / CLIP-I:文本/图像相似度(越高越好)

文生全景图对比

方法BRISQUE↓NIQE↓Q-Align↑CLIP-T↑
Diffusion36069.57.51.820.9
MVDiffusion47.97.12.421.5
LayerPano3D49.66.53.721.5
HunyuanWorld 1.040.85.84.424.3

图生全景图对比

方法BRISQUE↓NIQE↓Q-Align↑CLIP-I↑
Diffusion36071.47.81.973.9
MVDiffusion47.77.02.780.8
HunyuanWorld 1.045.25.84.385.1

文生3D世界对比

方法BRISQUE↓NIQE↓Q-Align↑CLIP-T↑
Director3D49.87.53.223.5
LayerPano3D35.34.83.922.0
HunyuanWorld 1.034.64.34.224.0

图生3D世界对比

方法BRISQUE↓NIQE↓Q-Align↑CLIP-I↑
WonderJourney51.87.33.281.5
DimensionX45.26.33.583.3
HunyuanWorld 1.036.24.63.984.5

数据显示,HunyuanWorld 1.0 在图像质量、语义对齐和跨模态一致性方面均达到当前最优水平。

可视化工具:一键查看生成结果

腾讯提供了一个轻量级的 Web端3D查看器(ModelViewer),用户只需:

  1. 打开 modelviewer.html
  2. 上传生成的 .glb  .obj 文件
  3. 即可在浏览器中实时漫游、缩放、旋转场景

⚠️ 注意:部分大场景可能因设备性能限制导致加载失败,建议使用现代浏览器并在中高端设备上运行。

© 版权声明

相关文章

暂无评论

none
暂无评论...