ToonComposer:通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程

视频模型4个月前发布 小马良
940 0

香港中文大学、腾讯PCG ARC Lab和北京大学的研究人员推出 ToonComposer ,通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程。传统的卡通和动画制作涉及关键帧绘制、中间帧插补和上色阶段,这些阶段需要大量的手工劳动。尽管近年来 AI 在这些领域取得了一定进展,但现有方法通常将这些阶段分开处理,导致误差累积和生成结果质量下降。ToonComposer 通过将中间帧插补和上色阶段统一到一个后关键帧阶段,显著减少了手工劳动,提高了生成质量。

例如,一个卡通场景需要从一个角色的正面视角平滑过渡到背面视角。传统方法需要动画师逐帧绘制中间帧,然后逐帧上色,这不仅耗时,而且容易出错。ToonComposer 只需要动画师提供关键帧(如角色的正面和背面)和一个上色参考帧,即可自动生成高质量的卡通视频,显著减少了手工劳动。

 ToonComposer:通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程

主要功能

  1. 后关键帧阶段(Post-Keyframing Stage):将中间帧插补和上色阶段合并为一个自动化过程,仅需少量关键帧和一个上色参考帧即可生成完整的卡通视频。
  2. 稀疏草图注入机制(Sparse Sketch Injection):通过稀疏的关键帧草图实现精确的时间控制,支持在任意时间位置注入草图。
  3. 卡通适应机制(Cartoon Adaptation):通过空间低秩适配器(SLRA)将现代视频生成模型适应到卡通领域,同时保留其时间先验。
  4. 区域控制(Region-wise Control):允许用户在草图中指定空白区域,让模型根据上下文或文本提示生成合理的内容。
 ToonComposer:通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程

主要特点

  1. 高效率:通过后关键帧阶段,显著减少了手工劳动,提高了生产效率。
  2. 高质量生成:支持从稀疏输入生成高质量、风格一致的卡通视频。
  3. 灵活性:支持多种输入配置,包括单个草图和多个草图,适应不同复杂度的动画需求。
  4. 适应性:通过 SLRA 机制,能够适应不同的卡通风格,保持时间连贯性。

工作原理

ToonComposer 基于现代扩散变换器(DiT)架构,通过以下机制实现其功能:

  1. 稀疏草图注入机制:通过位置编码映射和位置感知残差模块,将稀疏草图注入到 DiT 模型的潜空间中,实现精确的时间控制。
  2. 卡通适应机制:通过 SLRA 机制,仅调整模型的空间行为,保留其时间行为,使模型能够适应卡通领域。
  3. 区域控制:通过在训练中引入随机掩码,使模型能够处理空白区域,生成合理的内容。
 ToonComposer:通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程

测试结果

  1. 合成基准测试:在合成基准测试中,ToonComposer 在视觉质量、运动连贯性和生产效率方面均优于现有方法,如 AniDoc、LVCD 和 ToonCrafter。
  2. 真实基准测试:在包含真实人类绘制草图的 PKBench 基准测试中,ToonComposer 同样表现出色,优于其他方法。
  3. 用户研究:用户研究显示,ToonComposer 在美学质量和运动质量方面获得了最高的用户偏好率。
© 版权声明

相关文章

暂无评论

none
暂无评论...