自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

新技术6个月前发布小马良

259 0

苏黎世联邦理工学院和迪士尼研究的研究人员推出自适应投影引导（APG），保留了CFG提高质量的优势，同时允许使用更高的引导比例而不产生过饱和。APG易于实现，并且实际上不会给采样过程带来额外的计算开销。APG能够在不牺牲图像质量的前提下，使用更高的指导尺度（guidance scale），从而生成更丰富、更真实的图像。通过广泛的实验，研究人员证明了APG与各种条件扩散模型和采样器兼容，导致FID、召回率和饱和度评分提高，同时保持与CFG相当的精度，使得APG成为标准无分类器引导的优秀即插即用替代品。

论文：https://arxiv.org/abs/2410.02416

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

主要特点

减少过饱和和人工痕迹：APG通过调整模型更新规则，减少了高指导尺度下图像过于饱和和不自然的问题。
保持图像质量：即使在高指导尺度下，APG也能够保持图像的细节和质量。
易于实现：APG可以轻松地集成到现有的扩散模型中，几乎不增加额外的计算负担。

工作原理

APG的工作原理包含三个关键步骤：

正交投影：将模型更新分解为与条件模型预测平行和垂直的两个部分，然后减弱平行部分的影响，这有助于减少过饱和现象。
重新缩放：根据更新向量的大小调整更新步长，以避免在采样过程中产生太大的偏移。
反向动量：引入一个反向动量项，使得连续的更新之间产生排斥效应，从而减少已经存在于先前步骤中的成分的影响。

具体应用场景

文本到图像的生成：例如，根据文本描述生成相应的图像，如“一只戴着宇航员头盔的狗”，APG能够生成更逼真、更符合描述的图像。
图像到图像的翻译：例如，将一张低分辨率的图片转换成高分辨率的图片，同时保持图像内容的真实性。
艺术创作：艺术家和设计师可以使用APG来探索不同的视觉风格和细节，生成独特的艺术作品。

总的来说，APG通过改进扩散模型的引导机制，使得生成的图像在保持高质量和细节的同时，减少了不真实感和人为痕迹，提高了生成模型的实用性和艺术表现力。

新技术 # APG # 自适应投影引导

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型视图合成技术InstantSplat：在极短的时间内（大约40秒）从稀疏的、没有相机姿态信息的图像中重建和渲染出新视角的3D场景

新型视图合成技术InstantSplat：在极短的时间内（大约40秒）从稀疏的、没有相机姿态信息的图像中重建和渲染出新视角的3D场景

新技术 # 3D场景 # InstantSplat

1年前

06430

3D网格模型生成框架AToM

3D网格模型生成框架AToM

新技术 # 3D网格模型 # AToM

1年前

03490

Bounded Attention：解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战

Bounded Attention：解决文生图模型在生成包含多个主题（subjects）的图像时遇到的挑战

新技术 # Bounded Attention # 多主题 # 文生图模型

1年前

03750

可控图像到视频生成框架SG-I2V：用于在图像到视频的生成过程中实现对象和相机运动的控制

可控图像到视频生成框架SG-I2V：用于在图像到视频的生成过程中实现对象和相机运动的控制

新技术 # SG-I2V # 视频生成

5个月前

02380

暂无评论

none

暂无评论...