清华与微软推出 TRELLIS.2:单图生成带透明材质的 3D 资产

3D模型1天前发布 小马良
10 0

由清华大学、微软研究院与中国科学技术大学联合推出,TRELLIS.2 是一个参数量达 40 亿 的先进 3D 生成模型,专为从单张图像生成带完整 PBR 材质的高分辨率 3D 资产而设计。

它摒弃了传统依赖等值面场(如 SDF、FlexiCubes)的方法,转而采用一种全新的 “无场”稀疏体素表示——O-Voxel,首次实现了对任意拓扑结构、锐利几何特征与复杂材质(包括透明/半透明)的统一建模。

清华与微软推出 TRELLIS.2:单图生成带透明材质的 3D 资产

新颖3D生成模型TRELLIS:能够创建多功能且高质量的3D资产

为什么 TRELLIS.2 不同?

传统 3D 生成方法常受限于:

  • 无法处理开放表面(如衣服、树叶)
  • 难以表达非流形几何(如共享边、T 型连接)
  • 材质建模仅限基础颜色,缺乏物理真实感

TRELLIS.2 通过 O-Voxel 表示 系统性解决这些问题。

清华与微软推出 TRELLIS.2:单图生成带透明材质的 3D 资产

核心特性

1. O-Voxel:全能型稀疏体素结构

O-Voxel 是一种同时编码几何与外观的体素表示,具备三大优势:

  • 任意拓扑支持
    可直接处理:
    ✅ 开放表面(如飘带、植被)
    ✅ 非流形几何(如多面体交界)
    ✅ 内部全封闭结构(如带内腔的机械零件)
    无需有损预处理或拓扑修复
  • 完整 PBR 材质建模
    每个体素包含:

    • 基础颜色(Albedo)
    • 粗糙度(Roughness)
    • 金属度(Metallic)
    • 不透明度(Opacity)
      支持照片级渲染透明/半透明效果
  • 极简高效转换
    • 纹理网格 → O-Voxel:< 10 秒(单核 CPU)
    • O-Voxel → 纹理网格:< 100 毫秒(CUDA)
      全程无需渲染、优化或后处理

2. 高分辨率、高保真、高效率

  • 架构:基于 DiT(Diffusion Transformer)的流匹配生成器
  • 潜在空间:采用 16 倍空间下采样的稀疏 3D VAE
    • 1024³ 资产 → 仅约 9.6K 个潜在令牌
    • 感知质量损失可忽略
  • 生成分辨率:支持 512³ 至 1536³ 体素网格
  • 推理速度(NVIDIA H100):
    分辨率总耗时(形状 + 材质)
    512³~3 秒2s + 1s
    1024³~17 秒10s + 7s
    1536³~60 秒35s + 25s

3. 灵活应用场景

  • 图像到 3D:输入单张图像,输出带 PBR 材质的完整 3D 网格
  • 形状条件纹理生成:为已有 3D 模型 + 参考图像,生成物理一致的纹理
  • 资产重建:从多视角或单视角重建高保真 3D 内容,适用于游戏、影视、AR/VR

技术概览

项目说明
开发团队Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu 等(清华、MSR、中科大)
模型类型流匹配 Transformer + 稀疏 3D VAE
参数量40 亿
输入单张 RGB 图像(或图像 + 3D 形状)
输出带 PBR 材质的三角网格(支持透明度)
核心创新O-Voxel 表示、无场生成、端到端 PBR 建模
© 版权声明

相关文章

暂无评论

none
暂无评论...