ToonComposer：通过生成式后关键帧（post-keyframing）阶段简化卡通制作流程

1,109 0

香港中文大学、腾讯PCG ARC Lab和北京大学的研究人员推出 ToonComposer ，通过生成式后关键帧（post-keyframing）阶段简化卡通制作流程。传统的卡通和动画制作涉及关键帧绘制、中间帧插补和上色阶段，这些阶段需要大量的手工劳动。尽管近年来 AI 在这些领域取得了一定进展，但现有方法通常将这些阶段分开处理，导致误差累积和生成结果质量下降。ToonComposer 通过将中间帧插补和上色阶段统一到一个后关键帧阶段，显著减少了手工劳动，提高了生成质量。

项目主页：https://lg-li.github.io/project/tooncomposer
GitHub：https://github.com/TencentARC/ToonComposer
模型：https://huggingface.co/TencentARC/ToonComposer

例如，一个卡通场景需要从一个角色的正面视角平滑过渡到背面视角。传统方法需要动画师逐帧绘制中间帧，然后逐帧上色，这不仅耗时，而且容易出错。ToonComposer 只需要动画师提供关键帧（如角色的正面和背面）和一个上色参考帧，即可自动生成高质量的卡通视频，显著减少了手工劳动。

ToonComposer：通过生成式后关键帧（post-keyframing）阶段简化卡通制作流程

主要功能

后关键帧阶段（Post-Keyframing Stage）：将中间帧插补和上色阶段合并为一个自动化过程，仅需少量关键帧和一个上色参考帧即可生成完整的卡通视频。
稀疏草图注入机制（Sparse Sketch Injection）：通过稀疏的关键帧草图实现精确的时间控制，支持在任意时间位置注入草图。
卡通适应机制（Cartoon Adaptation）：通过空间低秩适配器（SLRA）将现代视频生成模型适应到卡通领域，同时保留其时间先验。
区域控制（Region-wise Control）：允许用户在草图中指定空白区域，让模型根据上下文或文本提示生成合理的内容。

主要特点

高效率：通过后关键帧阶段，显著减少了手工劳动，提高了生产效率。
高质量生成：支持从稀疏输入生成高质量、风格一致的卡通视频。
灵活性：支持多种输入配置，包括单个草图和多个草图，适应不同复杂度的动画需求。
适应性：通过 SLRA 机制，能够适应不同的卡通风格，保持时间连贯性。

工作原理

ToonComposer 基于现代扩散变换器（DiT）架构，通过以下机制实现其功能：

稀疏草图注入机制：通过位置编码映射和位置感知残差模块，将稀疏草图注入到 DiT 模型的潜空间中，实现精确的时间控制。
卡通适应机制：通过 SLRA 机制，仅调整模型的空间行为，保留其时间行为，使模型能够适应卡通领域。
区域控制：通过在训练中引入随机掩码，使模型能够处理空白区域，生成合理的内容。

测试结果

合成基准测试：在合成基准测试中，ToonComposer 在视觉质量、运动连贯性和生产效率方面均优于现有方法，如 AniDoc、LVCD 和 ToonCrafter。
真实基准测试：在包含真实人类绘制草图的 PKBench 基准测试中，ToonComposer 同样表现出色，优于其他方法。
用户研究：用户研究显示，ToonComposer 在美学质量和运动质量方面获得了最高的用户偏好率。