腾讯开源用于加速形状生成的通用框架 FlashVDM：加速 Hunyuan3D 2.0 模型生成速度提升30 倍

373 0

腾讯推出一个通用的框架FlashVDM，用于加速形状生成向量集扩散模型（VDM），例如 Hunyuan3D-2、Michelangelo、CraftsMan3D、CLAY、TripoSG、Dora 等。

它包含两种技术，分别用于加速 VAE 和 DiT：

腾讯表示，Hunyuan3D 2.0 整个系列的模型生成速度提升了 30 倍，处理时间从 30 秒缩短至 1 秒。完全得益于 FlashVDM，它不仅支持混元系列模型，还支持加速其他模型。

FlashVDM 的主要功能是将预训练的 VDM 转换为一个高保真、高速度的 3D 形状生成器。具体来说，FlashVDM 能够：

加速扩散采样（Diffusion Sampling）：通过引入 Progressive Flow Distillation（渐进流蒸馏）方法，将扩散采样步骤从数十步减少到仅 5 步，同时保持生成质量。
加速 VAE 解码（VAE Decoding）：通过提出 Lightning Vecset Decoder（闪电 Vecset 解码器），利用 Adaptive KV Selection（自适应键值选择）、Hierarchical Volume Decoding（层次化体积解码）和 Efficient Network Design（高效网络设计）等技术，显著降低解码过程的计算量，将解码时间从 22.3 秒缩短到 0.49 秒。
保持生成质量：尽管速度大幅提升，但 FlashVDM 生成的 3D 形状在质量和细节上与原始 VDM 相当，甚至在某些情况下更好。

高效性：FlashVDM 在保持高质量生成的同时，显著提高了生成速度。例如，在消费级 GPU 上，FlashVDM 能够在不到 1 秒的时间内生成高分辨率的 3D 形状，相比原始 VDM 提速超过 45 倍。
普适性：FlashVDM 框架可以应用于任何基于 VDM 的 3D 形状生成模型，具有广泛的适用性。论文中以 Hunyuan3D-2 模型为例，展示了 FlashVDM 的应用效果。
稳定性：通过渐进流蒸馏等技术，FlashVDM 在加速过程中保持了模型的稳定性，避免了因加速而导致的生成质量下降。

FlashVDM 的工作原理主要分为两个部分：扩散加速和 VAE 加速。

扩散加速：通过 Progressive Flow Distillation 方法，FlashVDM 首先对预训练的 VDM 进行指导蒸馏（Guidance Distillation），以稳定目标网络并防止训练过程中的波动。然后，通过多阶段的步长蒸馏（Step Distillation），逐步减少扩散采样所需的步骤。最后，引入对抗性微调（Adversarial Fine-tuning），利用真实 3D 数据作为监督，进一步提升生成形状的质量。
VAE 加速：FlashVDM 提出了 Lightning Vecset Decoder，通过以下三种技术加速 VAE 解码过程：
- Adaptive KV Selection（自适应键值选择）：通过分析查询与形状潜码之间的局部相关性，选择与查询最相关的键值对，从而减少计算量。
- Hierarchical Volume Decoding（层次化体积解码）：利用形状表面在体积空间中的稀疏性，仅在靠近形状表面的区域增加分辨率，从而减少需要解码的查询点数量。
- Efficient Network Design（高效网络设计）：通过简化解码器的网络结构，进一步降低每个查询的计算量。