在生成式 AI 向三维空间延伸的进程中,高质量、高分辨率的3D内容生成已成为核心挑战。尽管基于稀疏体素的方法在几何细节建模方面表现出色,但其普遍采用的双阶段扩散架构常因注意力机制的二次计算复杂度而面临严重的效率瓶颈。
为解决这一问题,来自南洋理工大学、清华大学、北京师范大学人工智能学院、西湖大学及Math Magic的研究团队联合提出 Ultra3D —— 一种新型高效3D生成框架,在不牺牲视觉质量的前提下,显著加速稀疏体素建模过程。
该框架已在多项测试中实现高达6.7倍的推理加速,并支持 1024³ 分辨率的高保真3D网格生成,为实时3D内容创作提供了更具实用性的技术路径。

核心目标:打破“高质量”与“高效率”的对立
当前主流3D生成模型常陷入两难:
- 追求细节 → 依赖全局注意力 → 计算开销大;
- 提升速度 → 简化结构 → 损失几何保真度。
Ultra3D 的设计哲学是:通过语义感知的局部化建模,在保持结构连续性的同时,大幅降低冗余计算。
其最终目标是:让用户上传一张图像(如汽车、动物、家具),即可快速生成一个细节丰富、语义合理、可编辑的3D模型。

技术架构:两大创新支撑高效生成
Ultra3D 采用双阶段生成流程,每个阶段均引入关键优化:
第一阶段:紧凑表示生成粗略布局
- 使用 VecSet 表示法 替代传统体素序列;
- VecSet 是一种紧凑的向量集合,用于描述物体的整体结构与部件分布;
- 显著减少标记(token)数量,加速稀疏体素坐标的预测;
- 输出为带空间位置的粗略体素布局。
✅ 优势:比传统方法减少约 50% 的初始计算负载。
第二阶段:Part Attention 实现高效精细化
这是 Ultra3D 的核心技术突破。
传统方法在生成每个体素的潜在特征时,需对所有体素执行全局注意力计算,复杂度为 $O(n^2)$,成为性能瓶颈。
Ultra3D 引入 Part Attention(部件注意力):
- 将物体划分为多个语义一致的部件区域(如车头、车轮、车门);
- 注意力计算仅在每个部件内部进行,避免跨区域无效交互;
- 结合部件标签,确保结构连续性与边界清晰。
💡 举例:车轮区域只关注自身体素,不与车窗进行注意力交互,大幅降低计算量。
此外,当输入为图像时,跨模态注意力也仅在对应部件的图像标记之间进行,进一步提升效率。
支撑技术:可扩展的部件标注流水线
为支持 Part Attention,团队构建了一套自动化部件标注流水线:
- 输入原始3D网格(如ShapeNet、Objaverse);
- 自动分割为语义部件(轮子、座椅、把手等);
- 转换为带标签的稀疏体素数据;
- 支持大规模训练集构建。
该流水线为模型提供了高质量监督信号,是实现语义感知生成的基础。
主要功能亮点
| 功能 | 说明 |
|---|---|
| 高效3D生成 | 通过VecSet与Part Attention,显著缩短生成时间 |
| 高保真表面建模 | 保留精细几何细节,优于现有方法 |
| 支持1024³分辨率 | 可生成超高分辨率3D网格,适用于工业级建模 |
| 图像到3D网格 | 支持从单张图像生成完整3D对象 |
| 用户偏好领先 | 在对比测试中,68.5% 用户更倾向 Ultra3D 生成结果 |
测试表现:质量与效率双优
在多个基准数据集上的实验表明,Ultra3D 在以下方面表现突出:
| 指标 | 表现 |
|---|---|
| 视觉质量(FID, CD) | 显著优于MeshDiffusion、Point-E等基线模型 |
| 用户偏好 | 在盲测中,68.5% 用户选择 Ultra3D 结果 |
| 推理速度提升 | 相比全局注意力机制,最高提速6.7倍 |
| 长序列一致性 | 高分辨率下仍保持部件结构稳定 |
| 跨模态对齐 | 图像输入与生成3D模型的空间匹配度更高 |
如对比图所示(红框区域),Ultra3D 在车灯、进气格栅等细节区域的还原度明显更优。















