哈尔滨工业大学和华为诺亚方舟实验室的研究人员推出交互式图像编辑工具FramePainter,它利用视频扩散先验(video diffusion priors)来增强图像编辑的能力。FramePainter允许用户通过直观的视觉指令,如绘制草图、点击点和拖动区域来操作图像。例如,用户可以轻松地调整图像中杯子的反射,或者将小丑鱼的形状改变成类似鲨鱼的形状。
主要功能
-
直观的图像操作:用户可以通过绘制、点击和拖动等简单操作来编辑图像,实现对图像内容的灵活控制。
-
强大的编辑能力:不仅能在常见场景下进行合理编辑,还能在一些非常规场景(如将小丑鱼变成鲨鱼形状)中表现出色,展现出卓越的泛化能力。
主要特点
-
视频扩散先验的利用:将交互式图像编辑重新定义为图像到视频的生成问题,从而继承视频扩散模型中的强大先验,减少了训练成本,并确保了时间一致性。
-
匹配注意力机制:为了解决时间注意力在处理两帧之间大运动时的局限性,提出了匹配注意力机制,以扩大感受野并鼓励编辑图像和源图像标记之间的密集对应关系。
-
高效的训练和推理:与以往方法相比,FramePainter使用更少的训练样本就能达到更好的编辑效果,大大降低了训练成本。在推理时,不需要额外的跟踪结果输入,就能准确查询每个编辑图像标记对应的源图像标记。
工作原理
-
图像到视频的生成任务:FramePainter以源图像和编辑信号作为输入,生成一个包含重建图像和目标图像的两帧视频。源图像作为第一帧,编辑信号指导目标图像的生成。
-
轻量级稀疏控制编码器:使用轻量级的稀疏控制编码器将编辑信号(如草图图像)注入到U-Net中,避免影响源图像的重建。
-
匹配注意力:通过匹配注意力机制,将目标图像标记与源图像标记进行密集对应,提高编辑图像的视觉一致性。匹配注意力作为空间注意力的辅助分支,通过优化注意力权重来实现更精确的对应关系。
-
视频数据构建样本:从高质量视频中构建图像对和视觉编辑指令,作为模型训练的数据。通过随机采样和光学流预测,筛选出具有足够运动的图像对,并从中提取编辑信号。
具体应用场景
-
图像内容编辑:用户可以轻松地修改图像中的对象位置、形状和姿态,如调整人物的姿态、改变动物的形状等。
-
艺术创作:艺术家可以利用FramePainter快速实现创意构思,通过简单的草图和编辑指令,生成具有艺术效果的图像。
-
视频预览和编辑:在视频制作过程中,可以使用FramePainter对关键帧进行编辑,预览编辑效果,然后应用到整个视频序列中。
-
教育和培训:在设计和艺术教育中,教师可以使用FramePainter演示图像编辑技巧,学生可以通过实践来学习和掌握图像编辑的方法。
评论0