华中科技大学信息与通信学院、香港大学计算机科学系和vivo AI 实验室的研究人员推出新型图像生成框架ControlAR,它能够根据空间控制信息生成可控制的高质量图像。简单来说,ControlAR能够理解诸如边缘线条、深度图或分割掩模等空间控制信号,并据此生成具有相应特征的图像。
ControlAR是一个高效且有效的框架,用于将空间控制集成到自回归图像生成模型中。首先,研究团队探索了 AR 模型的控制编码,并提出了一个轻量级的控制编码器,将空间输入(例如,Canny 边缘或深度图)转换为控制标记。然后,ControlAR 利用条件解码方法,根据控制标记和图像标记之间的逐标记融合生成下一个图像标记,类似于位置编码。与预填充标记相比,使用条件解码显著增强了 AR 模型的控制能力,但同时也保持了模型的效率。此外,所提出的 ControlAR 通过条件解码和特定控制,出乎意料地赋予 AR 模型任意分辨率图像生成的能力。广泛的实验可以展示所提出的 ControlAR 在自回归控制到图像生成中的可控性,涵盖了多种输入,包括边缘、深度和分割掩码。
例如,你是一名平面设计师,想要创作一个以“白龙”为主题的图像。你可以使用ControlAR,输入“白龙”的文字描述,并提供一个大致的轮廓或边缘图作为控制信号。ControlAR将根据这些信息生成一个既符合文字描述又遵循你给定的轮廓样式的图像。
主要功能
- 可控制图像生成:根据给定的空间控制信息生成图像。
- 任意分辨率图像生成:能够生成不同尺寸和宽高比的图像。
主要特点
- 条件解码:利用条件解码方法来加强模型对控制信号的响应能力。
- 轻量级控制编码器:将空间控制信息转换为控制标记(tokens)。
- 无需额外计算成本:与直接复制控制标记的方法相比,条件解码不会增加模型训练和推理的计算成本。
工作原理
- 控制编码:使用控制编码器(如Vision Transformer)将空间控制图像(例如Canny边缘图或深度图)转换为一系列控制标记。
- 条件解码:在图像生成过程中,每个图像标记的预测都依赖于前一个图像标记和当前控制标记的融合,类似于位置编码。
- 多分辨率训练:通过多分辨率训练,ControlAR能够生成不同分辨率的高质量图像。
具体应用场景
- 创意设计:设计师可以利用边缘图或分割掩模来指导图像生成,从而创建具有特定构图和风格的作品。
- 增强现实:在增强现实应用中,可以根据现实世界的深度信息生成与环境相融合的虚拟图像。
- 图像编辑:用户可以提供特定的空间控制信号来编辑图像的特定部分,如调整图像中物体的布局。
总的来说,ControlAR通过创新的条件解码方法和轻量级的控制编码器,提高了图像生成任务的可控性和灵活性,为图像生成领域带来了新的可能。
评论0