腾讯推出一个通用的框架FlashVDM,用于加速形状生成向量集扩散模型(VDM),例如 Hunyuan3D-2、Michelangelo、CraftsMan3D、CLAY、TripoSG、Dora 等。
它包含两种技术,分别用于加速 VAE 和 DiT:
-
闪电向量集解码器:显著降低解码 FLOPs,同时不损失解码质量,实现超过 45 倍的加速。 -
渐进流蒸馏:支持灵活的扩散采样,最少只需 5 个推理步骤即可获得相当的质量。
腾讯表示,Hunyuan3D 2.0 整个系列的模型生成速度提升了 30 倍,处理时间从 30 秒缩短至 1 秒。完全得益于 FlashVDM,它不仅支持混元系列模型,还支持加速其他模型。

主要功能
FlashVDM 的主要功能是将预训练的 VDM 转换为一个高保真、高速度的 3D 形状生成器。具体来说,FlashVDM 能够:
-
加速扩散采样(Diffusion Sampling):通过引入 Progressive Flow Distillation(渐进流蒸馏)方法,将扩散采样步骤从数十步减少到仅 5 步,同时保持生成质量。 -
加速 VAE 解码(VAE Decoding):通过提出 Lightning Vecset Decoder(闪电 Vecset 解码器),利用 Adaptive KV Selection(自适应键值选择)、Hierarchical Volume Decoding(层次化体积解码)和 Efficient Network Design(高效网络设计)等技术,显著降低解码过程的计算量,将解码时间从 22.3 秒缩短到 0.49 秒。 -
保持生成质量:尽管速度大幅提升,但 FlashVDM 生成的 3D 形状在质量和细节上与原始 VDM 相当,甚至在某些情况下更好。
主要特点
-
高效性:FlashVDM 在保持高质量生成的同时,显著提高了生成速度。例如,在消费级 GPU 上,FlashVDM 能够在不到 1 秒的时间内生成高分辨率的 3D 形状,相比原始 VDM 提速超过 45 倍。 -
普适性:FlashVDM 框架可以应用于任何基于 VDM 的 3D 形状生成模型,具有广泛的适用性。论文中以 Hunyuan3D-2 模型为例,展示了 FlashVDM 的应用效果。 -
稳定性:通过渐进流蒸馏等技术,FlashVDM 在加速过程中保持了模型的稳定性,避免了因加速而导致的生成质量下降。
工作原理
FlashVDM 的工作原理主要分为两个部分:扩散加速和 VAE 加速。
-
扩散加速:通过 Progressive Flow Distillation 方法,FlashVDM 首先对预训练的 VDM 进行指导蒸馏(Guidance Distillation),以稳定目标网络并防止训练过程中的波动。然后,通过多阶段的步长蒸馏(Step Distillation),逐步减少扩散采样所需的步骤。最后,引入对抗性微调(Adversarial Fine-tuning),利用真实 3D 数据作为监督,进一步提升生成形状的质量。 -
VAE 加速:FlashVDM 提出了 Lightning Vecset Decoder,通过以下三种技术加速 VAE 解码过程: -
Adaptive KV Selection(自适应键值选择):通过分析查询与形状潜码之间的局部相关性,选择与查询最相关的键值对,从而减少计算量。 -
Hierarchical Volume Decoding(层次化体积解码):利用形状表面在体积空间中的稀疏性,仅在靠近形状表面的区域增加分辨率,从而减少需要解码的查询点数量。 -
Efficient Network Design(高效网络设计):通过简化解码器的网络结构,进一步降低每个查询的计算量。
-
应用场景
FlashVDM 的应用场景非常广泛,尤其是在需要快速生成高质量 3D 形状的领域,例如:
-
实时 3D 建模:在游戏开发、虚拟现实(VR)和增强现实(AR)等实时应用中,FlashVDM 可以快速生成复杂的 3D 场景和物体,提升用户体验。 -
3D 打印:在 3D 打印领域,FlashVDM 可以快速生成高分辨率的 3D 模型,为快速原型设计和制造提供支持。 -
影视特效:在影视制作中,FlashVDM 可以快速生成复杂的 3D 特效场景,提高制作效率。 -
工业设计:在工业设计中,FlashVDM 可以快速生成产品原型的 3D 模型,帮助设计师快速迭代设计。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...