基于参考的线条艺术视频上色的视频扩散框架LVCD：用于根据参考图像和线稿序列为动画视频着色

313 0

香港城市大学和腾讯的研究人员推出基于参考的线条艺术视频上色的视频扩散框架LVCD，用于根据参考图像和线稿序列为动画视频着色。这种方法能够生成长时间一致的、高质量的动画视频。LVCD在保持长时间一致性和处理大动作场景方面的优势，这在以往的线稿视频着色方法中是一个挑战。通过使用视频扩散模型，LVCD能够生成具有物理基础渲染（PBR）效果的高质量动画视频，这些视频可以直接用于图形引擎进行基于物理的渲染。

项目主页：https://luckyhzt.github.io/lvcd

不同于以往依赖图像生成模型逐帧为线条艺术上色的工作，LVCD利用大规模预训练的视频扩散模型来生成上色动画视频。这种方法能够产生更一致的时序结果，并且更适合处理大幅度的动作。首先，研究团队引入了Sketch-guided ControlNet，它提供了额外的控制手段来微调图像到视频的扩散模型，从而实现可控的视频合成，并能够基于线条艺术生成动画视频。然后，研究团队提出了参考注意力机制（Reference Attention），以帮助将颜色从参考帧转移到包含快速和大幅度动作的其他帧。最后，研究团队展示了一种新的序列采样方案，该方案结合了重叠融合模块（Overlapped Blending Module）和前置参考注意力（Prev-Reference Attention），从而使视频扩散模型能够在长视频上色时超越其原有的固定长度限制。定性和定量的结果表明，我们的方法在帧质量和视频质量以及时序一致性方面显著优于最先进的技术。此外，我们的方法能够生成具有大幅度动作的高质量、长时序一致的动画视频，这是以前的工作无法实现的。

基于参考的线条艺术视频上色的视频扩散框架LVCD：用于根据参考图像和线稿序列为动画视频着色

例如，你是一名动画师，正在制作一部关于古代神话的短片。你已经完成了主要角色和场景的线稿，但需要为这些线稿上色。使用LVCD，你可以上传参考图像（例如，某个特定场景的关键帧）和线稿序列，系统将自动为整个场景生成一致的着色效果。这样，你就可以专注于创意和故事叙述，而不必手动为每一帧上色，大大节省了时间和精力。

主要功能和特点：

高质量视频着色： 能够为线稿动画视频生成具有光滑几何形状和空间变化纹理的着色效果。
长时间一致性： 通过新颖的序列采样方案，确保生成的视频在时间上具有高度一致性，即使在大动作场景中也能保持颜色和纹理的连贯性。
扩散模型应用： 利用大规模预训练的视频扩散模型来生成着色动画视频，提高了着色的质量和效率。

工作原理：

LVCD的工作原理包括以下几个关键步骤：

草图引导控制网络（Sketch-guided ControlNet）： 通过这个网络，将线稿作为额外的控制条件，引导视频生成模型生成与线稿结构和布局一致的动画。
参考注意力（Reference Attention）： 通过这种注意力机制，模型能够从参考帧中提取颜色信息，并将其传递到其他帧，即使这些帧包含快速和广泛的动作。
序列采样： 通过重叠混合模块（Overlapped Blending Module）和前参考注意力（Prev-Reference Attention），模型能够生成具有长期时间一致性的长视频。