清华与微软推出 TRELLIS.2：单图生成带透明材质的 3D 资产

60 0

由清华大学、微软研究院与中国科学技术大学联合推出，TRELLIS.2 是一个参数量达 40 亿 的先进 3D 生成模型，专为从单张图像生成带完整 PBR 材质的高分辨率 3D 资产而设计。

它摒弃了传统依赖等值面场（如 SDF、FlexiCubes）的方法，转而采用一种全新的 “无场”稀疏体素表示——O-Voxel，首次实现了对任意拓扑结构、锐利几何特征与复杂材质（包括透明/半透明）的统一建模。

新颖3D生成模型TRELLIS：能够创建多功能且高质量的3D资产

传统 3D 生成方法常受限于：

TRELLIS.2 通过 O-Voxel 表示 系统性解决这些问题。

O-Voxel 是一种同时编码几何与外观的体素表示，具备三大优势：

任意拓扑支持
可直接处理：
✅ 开放表面（如飘带、植被）
✅ 非流形几何（如多面体交界）
✅ 内部全封闭结构（如带内腔的机械零件）
无需有损预处理或拓扑修复。
完整 PBR 材质建模
每个体素包含：
- 基础颜色（Albedo）
- 粗糙度（Roughness）
- 金属度（Metallic）
- 不透明度（Opacity）
  支持照片级渲染与透明/半透明效果。
极简高效转换
- 纹理网格 → O-Voxel：< 10 秒（单核 CPU）
- O-Voxel → 纹理网格：< 100 毫秒（CUDA）
  全程无需渲染、优化或后处理。

架构：基于 DiT（Diffusion Transformer）的流匹配生成器
潜在空间：采用 16 倍空间下采样的稀疏 3D VAE
- 1024³ 资产 → 仅约 9.6K 个潜在令牌
- 感知质量损失可忽略
生成分辨率：支持 512³ 至 1536³ 体素网格
推理速度（NVIDIA H100）：
分辨率总耗时（形状 + 材质）
512³ ~3 秒 2s + 1s
1024³ ~17 秒 10s + 7s
1536³ ~60 秒 35s + 25s

项目	说明
开发团队	Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu 等（清华、MSR、中科大）
模型类型	流匹配 Transformer + 稀疏 3D VAE
参数量	40 亿
输入	单张 RGB 图像（或图像 + 3D 形状）
输出	带 PBR 材质的三角网格（支持透明度）
核心创新	O-Voxel 表示、无场生成、端到端 PBR 建模