在漫画生产行业中,基于参考图像的线稿上色是一项既复杂又关键的任务。一页漫画通常包含多样的人物、物体和背景,这不仅要求上色过程具备高准确性、上下文一致性,还需要灵活控制以满足不同场景需求。然而,传统的扩散模型尽管在图像生成领域取得了显著进展,但在线稿上色中的应用仍面临诸多挑战,例如处理大量参考图像时耗时较长、推理效率低以及灵活性不足等问题。
- 项目主页:https://zhuang2002.github.io/Cobra
- GitHub:https://github.com/Zhuang2002/Cobra
- 模型:https://huggingface.co/JunhaoZhuang/Cobra
针对这些痛点,清华大学、香港中文大学与腾讯 ARC Lab 的研究人员共同提出了一种名为 Cobra 的创新框架。Cobra 是一种高效且通用的长上下文细粒度 ID 保留框架,专为漫画线稿上色设计。它能够利用超过 200 张参考图像,同时保持低延迟,实现了高精度、高效率和灵活可控的上色效果。通过有效整合广泛的上下文参考,Cobra 能将黑白线稿转化为生动的插图,并显著提升推理速度和交互性,满足工业级需求。

Cobra 的核心优势
- 高效的上下文管理
Cobra 的核心是其因果稀疏 DiT(Diffusion Transformer)架构。该架构通过专门设计的定位编码、因果稀疏注意力机制和键值缓存技术,有效管理长上下文参考并确保颜色 ID 一致性。这种设计大幅降低了计算复杂性,同时提升了上色的准确性和细节表现。 - 灵活的颜色提示支持
Cobra 支持用户自定义颜色提示,进一步增强了框架的灵活性。无论是复杂的多角色场景还是细节丰富的背景,用户都可以通过简单的颜色标记实现精准控制,从而满足个性化需求。 - 卓越的性能表现
实验结果表明,Cobra 在多个指标上均优于现有的线稿上色方法。无论是复杂场景中的颜色保真度,还是带阴影线稿的细节增强,Cobra 都表现出强大的稳健性和实用性。
方法详解
A. 框架概述
Cobra 的框架设计旨在通过大量检索的参考图像指导漫画线稿上色。其核心特点包括:
- 局部可重用定位编码:有效管理任意数量的上下文图像参考,确保适当的纵横比和分辨率。
- 因果稀疏 DiT 架构:通过优化的注意力机制降低计算复杂性,同时提升颜色 ID 保留和准确性。
- 可选颜色提示:为用户提供更高的灵活性,适应多样化的工业应用场景。
B. 注意力机制优化
从全注意力到因果稀疏注意力的过渡是 Cobra 的一大亮点。通过排除参考图像间的成对计算,Cobra 显著降低了计算复杂性。此外,单向因果注意力的应用以及键值缓存的使用,进一步提高了推理效率,同时确保颜色 ID 信息的有效传递。

性能对比与实验结果
定性分析
- 线稿上色:Cobra 在复杂场景中表现出色,能够精确保留颜色 ID 并提供高质量的上色结果。
- 带阴影线稿:在保持颜色保真度的同时,Cobra 还能增强细节表现,证明了其在实际应用中的稳健性。
定量分析
研究人员通过多项指标对 Cobra 和现有最先进的漫画上色方法进行了对比,包括 CLIP-IS、FID、PSNR、SSIM 和 AS 等。实验结果显示,Cobra 在所有指标上均表现优异。此外,随着参考图像数量的增加,Cobra 的性能持续提升,进一步验证了其在大规模上下文管理中的优势。

推理效率评估
针对全注意力、稀疏注意力和因果稀疏注意力(带键值缓存)在不同参考图像数量下的推理时间效率评估表明,Cobra 的因果稀疏注意力机制显著降低了推理时间,同时保持了高质量的输出。