三阶段扩散模型框架ColorFlow:专门用于解决黑白图像的自动着色问题

ColorFlow 是由清华大学和腾讯ARC实验室提出的一个创新性三阶段扩散模型框架,专门用于解决黑白图像序列的自动着色问题。该模型旨在确保角色和对象的身份(ID)在着色过程中得到一致保留,同时生成高质量的颜色。这项技术在漫画或动画系列的上色中具有显著的市场需求。ColorFlow通过利用参考图像池中的上下文信息,能够为黑白图像序列中的各种元素(如角色的头发颜色和服装)准确生成颜色,并确保与参考图像的颜色一致性。

例如,我们有一系列黑白漫画图像,以及一组包含各种颜色信息的参考图像。ColorFlow能够识别出参考图像中与黑白漫画中相同角色或对象的颜色,并将其应用到漫画图像中,使得漫画图像变成彩色,同时保持与参考图像中角色或对象颜色的一致性。

主要特点

  1. 双分支设计:一个分支用于颜色身份提取,另一个分支用于上色,利用扩散模型的优势。
  2. 自注意力机制:在扩散模型中使用自注意力机制进行强上下文学习和颜色身份匹配。
  3. 无需每ID微调或显式ID嵌入提取:通过检索增强生成更用户友好和易于访问的上色结果。

    方法

    ColorFlow 的框架由三个主要组件组成,每个组件都在确保颜色身份一致性和高质量着色方面发挥关键作用:

    检索增强管道(RAP, Retrieval-Augmented Pipeline)

    • 功能:从给定的参考图像池中检索与当前图像最相关的颜色参考。
    • 实现:通过对比学习和自注意力机制,RAP 能够有效地匹配参考图像中的颜色信息,并将其应用于目标图像。这一过程确保了颜色的一致性和准确性。

    上下文着色管道(ICP, Identity-Consistent Coloring Pipeline)

    • 功能:基于检索到的颜色参考,为黑白图像生成颜色。
    • 实现:ICP 采用双分支设计,一个分支负责颜色身份提取,另一个分支负责实际着色。通过这种方式,ICP 能够充分利用扩散模型的优势,确保颜色的一致性和高质量输出。具体来说,ICP 利用扩散模型中的自注意力机制进行强大的上下文学习和颜色身份匹配,从而生成自然且一致的颜色。

    引导超分辨率管道(GSRP, Guidance Super-Resolution Pipeline)

    • 功能:提升着色后图像的分辨率,确保最终输出的图像具有高清晰度。
    • 实现:GSRP 使用引导超分辨率技术,结合着色结果和原始黑白图像,生成高分辨率的彩色图像。这一过程不仅提高了图像的清晰度,还保持了颜色的一致性和细节的完整性。

    分块训练策略

    为了减少在高分辨率拼接图像上训练的计算需求,ColorFlow 采用了分块训练策略。具体来说:

    • 训练阶段:将高分辨率拼接图像和相应的掩码分割成多个小块进行训练。这样可以显著降低计算资源的需求,同时保持模型的性能。
    • 推理阶段:在推理时,模型会处理完整的拼接图像和掩码,确保生成的彩色图像在全局范围内保持一致的颜色和细节。

    与先前工作的比较

    与现有的漫画和动画故事板着色方法相比,ColorFlow 在美学质量上表现出色,生成的颜色更接近原始图像。以下是几种方法的定量比较:

    从表中可以看出,ColorFlow 在所有类型的图像上都表现出了更高的美学质量,特别是在卡通故事板和现实世界照片上,优势尤为明显。

    定性结果

    ColorFlow 在多种艺术背景下展示了出色的着色效果,包括:

    • A. 黑白漫画:ColorFlow 能够准确地为角色的发色、服装等元素着色,确保与参考图像的颜色一致性。
    • B. 线稿:即使在复杂的线稿中,ColorFlow 也能生成自然且一致的颜色,保持线条的清晰度。
    • C. 现实世界照片:对于现实世界的照片,ColorFlow 能够生成逼真的色彩,适用于历史照片修复等场景。
    • D. 卡通故事板:在卡通故事板中,ColorFlow 能够为角色和场景着色,确保颜色的一致性和连贯性。

    评估基准

    为了评估 ColorFlow 的性能,研究团队引入了一个全面的基于参考的着色基准 ColorFlow-Bench。该基准涵盖了多种艺术风格和应用场景,测试了模型在不同条件下的表现。实验结果表明,ColorFlow 在多个指标上优于现有模型,为序列图像着色设定了新标准。

    0

    评论0

    没有账号?注册  忘记密码?