高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展,但在复杂动作、风格化角色、多角色交互等场景下,现有方法仍普遍存在结构失真、时间不连贯、身份泄漏等问题。
- 项目主页:https://teal024.github.io/SCAIL
- GitHub:https://github.com/zai-org/SCAIL
- 模型:https://huggingface.co/zai-org/SCAIL-Preview
为系统性解决这些瓶颈,智谱AI推出了 SCAIL(Studio-grade Character Animation via In-Context Learning) —— 一个面向生产级角色动画的生成框架。它通过3D一致的姿态表征与全上下文姿态注入机制,显著提升了动画的结构保真度、时间连贯性与跨身份泛化能力。

核心问题与突破
现有角色动画方法通常将姿态表示为2D关键点、光流或骨架图。这类表征存在两个根本缺陷:
- 身份信息泄漏:姿态信号中混入外观特征,导致模型在跨角色重定向时生成“混合身份”;
- 运动信息不足:缺乏深度、遮挡与肢体比例信息,难以支撑大幅度动作或多人交互。
SCAIL 重新定义了姿态的表示与注入方式:
- 3D一致姿态表征:使用 NLFPose 估计3D人体关键点,构建符合人体拓扑的骨骼结构,并将每根骨骼渲染为空间圆柱体。该表示保留了深度关系、肢体长度、遮挡逻辑,且与角色外观解耦;
- 全上下文注入:在扩散变换器(DiT)中,将整个动作序列的姿态信号作为显式上下文注入,使模型在生成每一帧时都能参考全局运动语义,而非仅依赖局部帧间差。
这一设计使 SCAIL 能对整个运动序列进行时空推理,从而生成更自然、连贯的动作。
主要功能与特点
✅ 工作室级动画生成
- 支持单人/多人复杂动作(如旋转、深蹲、拥抱、击掌);
- 即使参考图像与驱动视频在体型、风格、服装上差异巨大,仍能保持合理结构;
- 有效避免常见问题:四肢扭曲、关节错位、遮挡错误、身份漂移。
✅ 3D 姿态表示:鲁棒且可扩展
- 圆柱体骨骼表示天然支持深度感知与物理合理性;
- 可通过姿态增强(如缩放、旋转)适配不同角色比例;
- 支持动作重定向:将一段舞蹈动作迁移到卡通角色或异形身体上。
✅ 高效推理,无额外参数
- 全上下文注入通过条件注意力机制实现,不增加模型参数量;
- 推理速度与标准 DiT 相当,适合实际部署。
✅ Studio-Bench:首个面向影棚级动画的评测基准
- 构建了覆盖真人、卡通、3D模型、多人交互的多领域数据集;
- 评估指标包括 PSNR、SSIM、LPIPS、FVD,并引入物理一致性与动作语义对齐的人类评估。
实验结果
在 Studio-Bench 上的测试表明:
- 定量表现:SCAIL-14B 在自驱动动画任务中达到 PSNR 19.22、SSIM 0.660、LPIPS 0.206、FVD 176.16,全面优于现有方法;
- 用户偏好:在动作准确性、时间连贯性、物理合理性三项指标上,SCAIL 显著胜出,尤其在多角色击掌、转身拥抱、大幅度跳跃等场景中优势明显;
- 定性效果:生成视频无明显结构错误,肢体运动流畅,遮挡关系合理,即使在快速旋转或复杂交互中仍保持身份与形态一致。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















