由清华大学、微软研究院与中国科学技术大学联合推出,TRELLIS.2 是一个参数量达 40 亿 的先进 3D 生成模型,专为从单张图像生成带完整 PBR 材质的高分辨率 3D 资产而设计。
- 项目主页:https://microsoft.github.io/TRELLIS.2
- GitHub:https://github.com/microsoft/TRELLIS.2
- 模型:https://huggingface.co/microsoft/TRELLIS.2-4B
- Demo:https://huggingface.co/spaces/microsoft/TRELLIS.2
它摒弃了传统依赖等值面场(如 SDF、FlexiCubes)的方法,转而采用一种全新的 “无场”稀疏体素表示——O-Voxel,首次实现了对任意拓扑结构、锐利几何特征与复杂材质(包括透明/半透明)的统一建模。

为什么 TRELLIS.2 不同?
传统 3D 生成方法常受限于:
- 无法处理开放表面(如衣服、树叶)
- 难以表达非流形几何(如共享边、T 型连接)
- 材质建模仅限基础颜色,缺乏物理真实感
TRELLIS.2 通过 O-Voxel 表示 系统性解决这些问题。

核心特性
1. O-Voxel:全能型稀疏体素结构
O-Voxel 是一种同时编码几何与外观的体素表示,具备三大优势:
- 任意拓扑支持
可直接处理:
✅ 开放表面(如飘带、植被)
✅ 非流形几何(如多面体交界)
✅ 内部全封闭结构(如带内腔的机械零件)
无需有损预处理或拓扑修复。 - 完整 PBR 材质建模
每个体素包含:- 基础颜色(Albedo)
- 粗糙度(Roughness)
- 金属度(Metallic)
- 不透明度(Opacity)
支持照片级渲染与透明/半透明效果。
- 极简高效转换
- 纹理网格 → O-Voxel:< 10 秒(单核 CPU)
- O-Voxel → 纹理网格:< 100 毫秒(CUDA)
全程无需渲染、优化或后处理。
2. 高分辨率、高保真、高效率
- 架构:基于 DiT(Diffusion Transformer)的流匹配生成器
- 潜在空间:采用 16 倍空间下采样的稀疏 3D VAE
- 1024³ 资产 → 仅约 9.6K 个潜在令牌
- 感知质量损失可忽略
- 生成分辨率:支持 512³ 至 1536³ 体素网格
- 推理速度(NVIDIA H100):
分辨率 总耗时 (形状 + 材质) 512³ ~3 秒 2s + 1s 1024³ ~17 秒 10s + 7s 1536³ ~60 秒 35s + 25s
3. 灵活应用场景
- 图像到 3D:输入单张图像,输出带 PBR 材质的完整 3D 网格
- 形状条件纹理生成:为已有 3D 模型 + 参考图像,生成物理一致的纹理
- 资产重建:从多视角或单视角重建高保真 3D 内容,适用于游戏、影视、AR/VR
技术概览
| 项目 | 说明 |
|---|---|
| 开发团队 | Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu 等(清华、MSR、中科大) |
| 模型类型 | 流匹配 Transformer + 稀疏 3D VAE |
| 参数量 | 40 亿 |
| 输入 | 单张 RGB 图像(或图像 + 3D 形状) |
| 输出 | 带 PBR 材质的三角网格(支持透明度) |
| 核心创新 | O-Voxel 表示、无场生成、端到端 PBR 建模 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















