腾讯混元推出 Hunyuan3D-Omni:统一框架实现多模态可控 3D 生成

3D模型2个月前发布 小马良
113 0

腾讯混元项目组近日发布 Hunyuan3D-Omni ——一个面向 3D 资产生成的统一框架,解决传统单图生成 3D 模型时存在的几何失真、姿态不可控等问题。

该模型基于此前发布的 Hunyuan3D 2.1 架构升级而来,核心创新在于引入了一个统一控制编码器(Unified Control Encoder),支持融合多种条件信号,包括点云、体素、边界框和骨骼姿态,从而实现对生成结果的细粒度、高精度控制。

腾讯混元推出 Hunyuan3D-Omni:统一框架实现多模态可控 3D 生成

这一进展为游戏开发、影视制作、工业设计等需要高质量 3D 内容的领域提供了更高效、更灵活的生成方案。

模型库

生成需要10GB显存。

模型描述日期大小Huggingface
Hunyuan3D-Omni具有多模态控制的图像转形状模型2025-09-253.3B下载

多模态条件控制:从“能生成”到“可控制”

传统 3D 生成模型通常仅依赖单张图像作为输入,导致输出结果在比例、结构或姿态上常有偏差。Hunyuan3D-Omni 则通过多模态引导,让创作者可以精确干预生成过程:

控制方式功能说明
边界框控制约束生成物体的整体尺寸与空间比例,确保符合物理规格
姿态控制输入骨骼姿态,将静态角色调整为指定动作,适用于动画预览
点云控制基于稀疏点云数据重建完整 3D 形状,适合扫描后修复与补全
体素控制从低分辨率体素网格出发,生成高保真 3D 模型,便于草图转资产

例如,设计师只需上传一张角色图片并附加一组骨骼信息,即可生成一个处于奔跑状态的 3D 模型;或通过调整边界框,快速生成不同尺寸的家具变体。

腾讯混元推出 Hunyuan3D-Omni:统一框架实现多模态可控 3D 生成

核心功能亮点

  • ✅ 多模态融合:在一个框架内处理图像、点云、体素、骨架等多种输入;
  • ✅ 高精度几何生成:相比纯图像驱动方法,显著提升拓扑正确性与细节还原度;
  • ✅ 风格化与姿态编辑:支持对生成结果进行艺术化处理与动态姿态调整;
  • ✅ 跨模态协同:多种控制信号可组合使用,如“图像 + 姿态 + 边界框”,实现复合约束下的精准生成。

技术架构解析

Hunyuan3D-Omni 基于 3D 变分自编码器(VAE) 和 3D 潜在扩散模型(LDM) 构建,其工作流程如下:

  1. 3D 表示压缩
    使用 3D VAE 将原始点云压缩为紧凑的离散表示 VecSet,降低计算复杂度。
  2. 统一编码器融合条件信号
    设计轻量级统一控制编码器,将不同模态的控制信号(如骨骼、体素)编码为统一特征向量,避免为每种模态单独设计网络头,提升训练效率。
  3. 联合特征注入
    将控制特征与图像的 DINO 视觉特征拼接,共同指导扩散模型去噪过程。
  4. 解码与重建
    解码器从 VecSet 恢复出符号距离函数(SDF)场,再通过等值面采样(如 Marching Cubes)生成最终 3D 网格。

此外,团队采用渐进式、难度感知的训练策略,优先训练更具挑战性的任务(如姿态控制),逐步提升模型对复杂输入的鲁棒性。

实测表现:精度与鲁棒性双提升

根据官方测试结果,Hunyuan3D-Omni 在多个维度优于基线模型:

  • 几何精度更高:在点云和体素引导下,生成模型的形状误差显著降低;
  • 姿态对齐准确:人体模型能紧密贴合输入骨骼,动作自然;
  • 抗噪能力强:即使输入存在缺失或噪声,仍能生成完整合理的 3D 结果;
  • 多信号协同有效:组合使用多种控制信号时,生成质量与多样性均优于单一条件。
© 版权声明

相关文章

暂无评论

none
暂无评论...