来自香港中文大学-商汤科技联合实验室、香港中文大学感知与交互智能研究中心、中山大学、商汤科技研究院 和北京航空航天大学的研究团队提出了一种创新的、无需额外训练的方法—FouriScale,它旨在从预训练的扩散模型中生成高分辨率图像。
扩散模型是一种流行的生成模型,能够根据文本提示生成高质量的图像。然而,当这些模型应用于超出其训练分辨率的图像时,常常会出现重复图案和结构失真等问题。
FouriScale通过频率域分析的视角,提出了一种无需训练的解决方案,以解决这些问题。通过在预训练扩散模型中替换原始的卷积层,并结合空洞技术和低通操作,旨在实现跨分辨率的结构一致性和尺度一致性。
此外,还采用了先填充后裁剪的策略,使得FouriScale能够灵活处理各种长宽比的文本到图像的生成任务。通过引入FouriScale作为指导,我们的方法成功地在生成图像的结构完整性和保真度之间取得了平衡,实现了任意尺寸、高分辨率且高质量的图像生成能力。
主要功能和特点:
- 无需训练: FouriScale不需要对模型进行重新训练,即可生成高分辨率图像。
- 结构一致性: 通过膨胀卷积和低通滤波操作,FouriScale能够在不同分辨率间保持图像的结构一致性。
- 灵活性: 该方法可以灵活处理不同宽高比的文本到图像生成任务。
工作原理:
- 膨胀卷积: 通过在预训练的扩散模型中替换原始卷积层,引入膨胀技术,以实现结构一致性。
- 低通滤波: 为了实现规模一致性,FouriScale结合了低通滤波操作,以去除可能引起混叠的高频分量。
- 填充-裁剪策略: 为了适应不同宽高比的图像生成,FouriScale采用了填充-裁剪策略。
- FouriScale指导: 通过使用FouriScale作为指导,方法能够在生成图像时保持结构的完整性和细节的丰富性。
评论0