旷视科技与字节跳动的研究人员推出新型框架HiDiffusion,只需添加一行代码即可提高扩散模型(Stable Diffusion)在生成高分辨率图像方面的能力和效率。现有的扩散模型在生成超出训练时所用图像分辨率的高分辨率图像时,会遇到一些挑战,比如对象重复和计算效率低下。
- 项目主页:https://hidiffusion.github.io
- GitHub:https://github.com/megvii-research/HiDiffusion
- Colab Demo:https://colab.research.google.com/drive/1EiBn9lSnPZTU4cikRRaBBexs429M-qty?usp=sharing
HiDiffusion包括分辨率感知U-Net(RAU-Net),它能够动态调整特征图大小,从而有效解决对象重复问题。此外,HiDiffusion还引入了改进的移动窗口多头自注意力(MSW-MSA)机制,通过优化窗口注意力来减少计算量。我们可以将HiDiffusion集成到各种预训练的扩散模型中,将图像生成分辨率提升至4096×4096,且推理速度相较于先前方法提升了1.5-6倍。
主要功能和特点:
- 高分辨率图像生成:HiDiffusion能够使预训练的扩散模型生成超过训练时分辨率的高分辨率图像,例如从512×512提升到2048×2048甚至4096×4096。
- 无需额外训练:这个框架不需要对模型进行额外的训练或微调,即可实现高分辨率图像的生成。
- 提高计算效率:与原始的稳定扩散模型相比,HiDiffusion能够显著减少生成高分辨率图像所需的时间,减少幅度可达40%到60%。
- 解决对象重复问题:在生成更高分辨率的图像时,HiDiffusion能够避免不合理的对象重复和重叠,生成结构更合理、更逼真的图像。
工作原理:
HiDiffusion框架主要由两个关键组件构成:
- 分辨率感知U-Net(RAU-Net):这个组件通过动态调整特征图的大小来匹配卷积的接受域,解决了高分辨率图像生成中的对象重复问题。
- 修改后的移位窗口多头自注意力(MSW-MSA):这个组件通过使用更大的窗口大小和动态移动窗口来适应扩散模型,从而提高了高分辨率图像合成的推理速度。
具体应用场景:
- 艺术创作:艺术家和设计师可以利用HiDiffusion生成高分辨率的视觉内容,用于数字绘画、平面设计或3D渲染的纹理制作。
- 社交媒体:用户可以生成高分辨率的图片用于社交媒体平台,比如创建个性化的头像或封面图片。
- 广告和营销:公司可以使用这种技术生成吸引人的、高分辨率的广告图像,以吸引潜在客户的注意。
- 游戏和电影视觉效果:在游戏开发和电影制作中,HiDiffusion可以用来生成高分辨率的背景或特殊效果图像。
- 数据增强:在机器学习项目中,HiDiffusion可以用来生成额外的训练数据,提高模型的泛化能力。
评论0