独立条件引导(ICG)和时间步引导(TSG):在不牺牲这两种特性的情况下,改善生成模型的表现

苏黎世联邦理工学院和迪士尼搜索的研究人员提出了两种新的图像生成模型引导方法——独立条件引导(ICG)和时间步引导(TSG),它们可以在不牺牲这两种特性的情况下,改善生成模型的表现。这些方法可以提高生成图像的质量,同时简化模型的训练过程。

  • 论文地址:https://arxiv.org/abs/2407.02687

ICG无需特别的训练安排,即可实现CFG带来的效益,从而简化了条件性扩散模型的训练流程,并能无缝整合进任意预训练条件模型的推断阶段。进一步地,研究人员利用扩散网络内固有的时间步信息,提出“时间步指引”(Time-Step Guidance, TSG)作为CFG的一种延伸,该方法通用于各类扩散模型,包括无条件模型。这两大引导技术实施简便,其采样成本等同于CFG。广泛实验验证了ICG在多种条件性扩散模型上性能媲美常规CFG;同时表明,TSG能够独立于条件信息,以类似CFG的机制有效提升生成品质。

主要功能和特点:

  1. 独立条件引导(ICG):这是一种不需要特别训练程序就能提供标准分类器自由引导(CFG)好处的方法。ICG通过在推理时使用与输入数据无关的条件向量,使得条件得分函数等同于无条件得分,从而在不训练额外的无条件模型的情况下模拟CFG的行为。
  2. 时间步引导(TSG):这是一种可以应用于任何扩散模型(包括无条件模型)的新技术。TSG利用扩散网络中编码的所有时间步信息,通过在每个采样步骤中使用扰动的时间步嵌入来创建类似于CFG的引导信号,从而提高去噪的准确性。

工作原理:

  • ICG:基于一个理论发现,即如果条件向量与输入数据独立,那么条件得分就等同于无条件得分。这意味着可以使用单一的前向传播来有效地从条件模型中派生出无条件得分,而不需要额外的训练。
  • TSG:基于时间步嵌入的扰动版本,通过计算模型输出对于干净时间步嵌入和扰动嵌入的差异,来引导采样过程。这种方法利用了扩散模型学习到的时间步信息,以指导采样轨迹朝着更好的去噪路径发展。

具体应用场景:

  • 图像生成:在艺术创作或娱乐产业中,可以使用这些方法生成高质量的图像。
  • 文本到图像的合成:根据文本描述生成相应的图像,适用于广告、游戏设计等领域。
  • 3D生成:从文本或图像生成3D模型,可以用于建筑可视化、室内设计等。
  • 视频生成:生成连续的视频内容,可能用于电影制作或虚拟现实体验。
0

评论0

没有账号?注册  忘记密码?