Luma AI和斯坦福大学的研究人员推出新型生成模型框架 Inductive Moment Matching (IMM) ,旨在解决扩散模型(Diffusion Models)和流匹配(Flow Matching)在高效采样、稳定训练和高质量生成之间的权衡问题。IMM 通过单阶段训练过程实现了从零开始的单步或多步采样,无需预训练初始化或优化两个网络,同时保证了分布级收敛和在不同超参数下的稳定性。
传统扩散模型需要数百步采样才能生成高质量图像,而 IMM 可以在仅 8 步 内生成高质量的 ImageNet 图像,FID(Fréchet Inception Distance)得分仅为 1.99,显著优于传统方法。例如,在 CIFAR-10 数据集上,IMM 仅用 2 步 采样就能达到 1.98 的 FID,刷新了从零开始训练的生成模型的记录。

主要功能
- 高效采样:IMM 实现了单步或多步采样,显著减少了生成高质量图像所需的采样步数。
- 高质量生成:在 ImageNet 和 CIFAR-10 等基准数据集上,IMM 达到了与传统扩散模型相当甚至更好的生成质量。
- 稳定训练:IMM 通过数学归纳法和最大均值差异(MMD)优化,保证了在不同超参数和模型架构下的训练稳定性。
- 无需预训练:与模型蒸馏方法不同,IMM 不依赖预训练模型,直接从数据中学习生成分布。
主要特点
- 单阶段训练:IMM 通过单阶段训练直接学习从噪声到数据的映射,无需复杂的两阶段优化。
- 分布级收敛:IMM 通过归纳法和自洽插值器(self-consistent interpolants)保证了生成分布与目标分布的收敛。
- 灵活性:IMM 支持多种时间步长和采样策略,允许在推理时灵活调整采样步数。
- 理论支持:IMM 证明了与一致性模型(Consistency Models)的关系,解释了后者训练不稳定的潜在原因。
工作原理
- 自洽插值器:IMM 基于自洽插值器(self-consistent interpolants),这些插值器在数据和噪声之间定义了连续的时间依赖边际分布。自洽性确保了插值器在不同时间步长下的分布一致性。
- 归纳学习:IMM 通过归纳法训练模型,即通过最小化不同时间步长下的分布差异来优化模型参数。这种方法通过递归应用插值器,逐步将噪声分布转换为目标数据分布。
- 最大均值差异(MMD):IMM 使用 MMD 作为优化目标,通过匹配模型分布和目标分布的所有矩来确保生成质量和稳定性。
- 单步或多步采样:IMM 支持单步或多步采样,通过递归应用插值器,从噪声分布逐步生成目标数据分布。
应用场景
- 图像生成:IMM 可以用于生成高质量的图像,适用于艺术创作、内容生成和数据增强等场景。
- 视频生成:虽然论文主要关注图像生成,但 IMM 的高效采样和稳定性使其有潜力扩展到视频生成任务。
- 大规模数据生成:IMM 可以用于生成大规模合成数据,用于训练其他机器学习模型,特别是在数据稀缺的领域。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...