香港中文大学和卡内基梅隆大学的研究人员提出了一个名为Stable Consistency Tuning(SCT)的新框架,旨在理解和改进一致性模型(Consistency Models)。一致性模型是一类新型的生成模型,它们能够在保持高生成质量的同时,实现快速的单步生成,无需对抗训练。SCT框架通过模拟扩散模型的去噪过程为马尔可夫决策过程(MDP),并将一致性模型训练视为通过时间差分(TD)学习进行值估计,从而提供了对一致性模型的新理解,并指出了当前一致性训练/调整策略的局限性。
例如,在图像生成任务中,一致性模型可以直接从噪声中一步生成高质量的图像,而不需要像扩散模型那样进行多次迭代。SCT通过引入方差降低的学习目标和更平滑的渐进式训练计划,提高了模型的训练稳定性和生成性能。
主要功能和特点
- 方差降低学习:SCT通过分数恒等式引入了方差降低的训练目标,提高了训练稳定性,并促进了更好的性能和收敛。
- 渐进式训练计划:SCT采用了更平滑的渐进式训练计划,有助于训练动态并减少离散化误差。
- 多步设置的扩展:SCT将ECT(Easy Consistency Tuning)扩展到多步设置,允许确定性多步采样。
- 分类器自由引导:SCT探索了使用次优版本的一致性模型本身来引导生成,提高了样本质量。
工作原理
- 马尔可夫决策过程(MDP):SCT将扩散模型的逆向过程视为MDP,其中初始状态是从高斯分布中随机采样的,中间状态包括去噪样本和相应的条件信息,策略函数对应于应用ODE求解器进行单步去噪。
- 时间差分(TD)学习:SCT将一致性模型的训练解释为TD学习,通过特定的奖励和值函数与PF-ODE对齐。
- 方差降低估计:SCT使用方差降低估计来提供对真实分数的更好近似,有助于改善训练稳定性和性能。
- 边缘跳过多步推理策略:SCT提出了一种边缘跳过多步推理策略,以改善多步一致性模型的性能。
具体应用场景
- 图像生成:SCT可以用于无条件和有条件的图像生成任务,如在CIFAR-10和ImageNet-64数据集上生成高质量的图像。
- 文本到图像的生成:虽然论文中没有直接提到,但SCT的原理也适用于将文本描述转换为图像的生成任务。
- 其他高维数据生成:SCT的方法也可以扩展到其他需要快速高质量生成的领域,如视频生成、3D模型生成等。
总的来说,SCT通过提供一种新的理解和改进一致性模型的框架,推动了生成模型在速度和质量上的进步,特别是在需要快速生成的应用场景中。
评论0