香港中文大学、腾讯PCG ARC Lab和北京大学的研究人员推出 ToonComposer ,通过生成式后关键帧(post-keyframing)阶段简化卡通制作流程。传统的卡通和动画制作涉及关键帧绘制、中间帧插补和上色阶段,这些阶段需要大量的手工劳动。尽管近年来 AI 在这些领域取得了一定进展,但现有方法通常将这些阶段分开处理,导致误差累积和生成结果质量下降。ToonComposer 通过将中间帧插补和上色阶段统一到一个后关键帧阶段,显著减少了手工劳动,提高了生成质量。
- 项目主页:https://lg-li.github.io/project/tooncomposer
- GitHub:https://github.com/TencentARC/ToonComposer
- 模型:https://huggingface.co/TencentARC/ToonComposer
例如,一个卡通场景需要从一个角色的正面视角平滑过渡到背面视角。传统方法需要动画师逐帧绘制中间帧,然后逐帧上色,这不仅耗时,而且容易出错。ToonComposer 只需要动画师提供关键帧(如角色的正面和背面)和一个上色参考帧,即可自动生成高质量的卡通视频,显著减少了手工劳动。

主要功能
- 后关键帧阶段(Post-Keyframing Stage):将中间帧插补和上色阶段合并为一个自动化过程,仅需少量关键帧和一个上色参考帧即可生成完整的卡通视频。
- 稀疏草图注入机制(Sparse Sketch Injection):通过稀疏的关键帧草图实现精确的时间控制,支持在任意时间位置注入草图。
- 卡通适应机制(Cartoon Adaptation):通过空间低秩适配器(SLRA)将现代视频生成模型适应到卡通领域,同时保留其时间先验。
- 区域控制(Region-wise Control):允许用户在草图中指定空白区域,让模型根据上下文或文本提示生成合理的内容。

主要特点
- 高效率:通过后关键帧阶段,显著减少了手工劳动,提高了生产效率。
- 高质量生成:支持从稀疏输入生成高质量、风格一致的卡通视频。
- 灵活性:支持多种输入配置,包括单个草图和多个草图,适应不同复杂度的动画需求。
- 适应性:通过 SLRA 机制,能够适应不同的卡通风格,保持时间连贯性。
工作原理
ToonComposer 基于现代扩散变换器(DiT)架构,通过以下机制实现其功能:
- 稀疏草图注入机制:通过位置编码映射和位置感知残差模块,将稀疏草图注入到 DiT 模型的潜空间中,实现精确的时间控制。
- 卡通适应机制:通过 SLRA 机制,仅调整模型的空间行为,保留其时间行为,使模型能够适应卡通领域。
- 区域控制:通过在训练中引入随机掩码,使模型能够处理空白区域,生成合理的内容。

测试结果
- 合成基准测试:在合成基准测试中,ToonComposer 在视觉质量、运动连贯性和生产效率方面均优于现有方法,如 AniDoc、LVCD 和 ToonCrafter。
- 真实基准测试:在包含真实人类绘制草图的 PKBench 基准测试中,ToonComposer 同样表现出色,优于其他方法。
- 用户研究:用户研究显示,ToonComposer 在美学质量和运动质量方面获得了最高的用户偏好率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















