香港大学、香港科技大学、通义实验室和蚂蚁集团的研究人员合作推出了一款专注于精确角色细节转录的线稿上色模型——MangaNinja。MangaNinja专门用于将线稿图像转换为彩色图像,同时保持与参考图像的一致性。这种方法在漫画、动画和其他内容创作应用中需求很高。这款基于扩散模型的工具旨在通过两项创新技术——块打乱模块(Patch Shuffling Module)和点驱动控制方案(Point-Driven Control Scheme),实现对线稿的高质量上色。
- 项目主页:https://johanan528.github.io/MangaNinjia
- GitHub:https://github.com/ali-vilab/MangaNinjia
- 模型:https://huggingface.co/Johanan0528/MangaNinjia
例如,给定一个线稿图像和一个参考图像,MangaNinja能够自动对齐参考图像和线稿,生成高质量的彩色图像,同时用户可以通过点控制实现更复杂的任务,如处理极端姿势和阴影、跨角色上色和多参考图像协调等。用户有一个线稿图像,包含一个角色的全身像,参考图像是一个类似角色的彩色图像。用户希望生成一个彩色图像,其中角色的姿势和细节与线稿一致,但颜色与参考图像匹配。使用MangaNinja,用户可以:
- 自动对齐和上色:MangaNinja自动对齐参考图像和线稿,生成高质量的彩色图像。
- 点控制:用户可以通过定义特定的点来实现细粒度的颜色匹配,处理复杂的场景,如角色的阴影和高光。
- 多参考图像支持:如果参考图像中缺少某些元素,用户可以使用多个参考图像,通过点引导选择特定区域的颜色。
- 跨角色上色:即使参考图像和线稿是不同角色,MangaNinja也能通过点引导实现精确的颜色匹配,帮助用户探索和找到新的上色灵感。
主要功能
- 自动对齐和上色:MangaNinja能够自动对齐参考图像和线稿,生成高质量的彩色图像。
- 点控制:用户可以通过定义特定的点来实现细粒度的颜色匹配,处理复杂的场景。
- 多参考图像支持:支持同时使用多个参考图像进行上色,解决单个参考图像可能无法涵盖线稿中所有元素的问题。
- 跨角色上色:即使参考图像和线稿是不同角色,MangaNinja也能通过点引导实现精确的颜色匹配。
主要特点
- 双分支结构:MangaNinja采用双分支结构,通过交叉注意力机制在参考图像和线稿之间找到对应关系。
- patch shuffling模块:将参考图像分割成小块并随机打乱,鼓励模型进行局部匹配,提高模型的细粒度匹配能力。
- 点驱动控制方案:通过PointNet实现用户定义的点控制,提供交互式细粒度颜色匹配。
- 训练数据对:利用动漫视频中自然的语义对应和视觉变化构建训练数据对,提高模型的匹配能力。
工作原理
MangaNinja的工作流程包括从视频数据中随机选取两帧,其中一帧作为参考图像,另一帧则用于提取线稿。这两帧分别输入到两个不同的网络结构中进行处理:参考U-Net和去噪U-Net。为了提高模型的自动匹配能力和细粒度控制,研究人员提出了一系列训练策略,如渐进式块打乱,并利用现成的模型从视频帧中提取匹配点,再通过PointNet将这些点图输入到主分支中以辅助上色过程。
1、整体流程:
- 从视频数据中随机选择两帧,一帧作为参考图像,另一帧提取线稿作为目标图像。
- 使用LightGlue算法提取两帧之间的对应点对。
- 通过Reference U-Net和Denoising U-Net分别处理参考图像和线稿,生成最终的彩色图像。
2、架构设计:
- Reference U-Net:将参考图像编码为多级特征,注入到Denoising U-Net中。
- Denoising U-Net:使用Reference U-Net和PointNet的输出作为条件,生成彩色图像。
- Progressive Patch Shuffle:将参考图像分割成小块并随机打乱,逐步增加打乱的块数,从2×2到32×32,鼓励模型进行局部匹配。
- 细粒度点控制:通过PointNet编码用户定义的点对,通过交叉注意力机制注入到主分支中,实现细粒度的颜色匹配。
3、训练策略:
- Condition Dropping:在训练过程中随机丢弃线稿条件,迫使模型依赖点对进行精确匹配。
- Two-Stage Training:第一阶段进行无条件生成训练,第二阶段仅训练PointNet模块,增强点控制能力。
实验结果
在自建的数据集上的实验显示,MangaNinja在精确上色方面表现优异,超越了现有的非生成上色方法BasicPBC、一致性生成方法IP-Adapter以及AnyDoor。即使不使用点进行引导,MangaNinja也能生成高质量且色彩准确的图像。
复杂案例处理
- 不同姿势或缺失细节:MangaNinja能够有效地处理当参考图像与线稿间存在显著差异的情况,确保颜色匹配的同时避免颜色混淆。
- 多参考上色:用户可以通过选择多个参考图像中的特定区域来指导MangaNinja完成复杂的上色任务,同时解决参考图像间相似视觉元素的冲突问题。
- 差异参考上色:借助于点引导的精细控制,MangaNinja实现了语义级别的颜色匹配,支持用户探索创意性的上色方案。
评论0