智谱AI发布面向生产级角色动画的生成框架 SCAIL：通过3D一致姿态表征实现影棚级角色动画

76 0

高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展，但在复杂动作、风格化角色、多角色交互等场景下，现有方法仍普遍存在结构失真、时间不连贯、身份泄漏等问题。

项目主页：https://teal024.github.io/SCAIL
GitHub：https://github.com/zai-org/SCAIL
模型：https://huggingface.co/zai-org/SCAIL-Preview

为系统性解决这些瓶颈，智谱AI推出了 SCAIL（Studio-grade Character Animation via In-Context Learning） —— 一个面向生产级角色动画的生成框架。它通过3D一致的姿态表征与全上下文姿态注入机制，显著提升了动画的结构保真度、时间连贯性与跨身份泛化能力。

智谱AI发布面向生产级角色动画的生成框架 SCAIL：通过3D一致姿态表征实现影棚级角色动画

核心问题与突破

现有角色动画方法通常将姿态表示为2D关键点、光流或骨架图。这类表征存在两个根本缺陷：

身份信息泄漏：姿态信号中混入外观特征，导致模型在跨角色重定向时生成“混合身份”；
运动信息不足：缺乏深度、遮挡与肢体比例信息，难以支撑大幅度动作或多人交互。

SCAIL 重新定义了姿态的表示与注入方式：

3D一致姿态表征：使用 NLFPose 估计3D人体关键点，构建符合人体拓扑的骨骼结构，并将每根骨骼渲染为空间圆柱体。该表示保留了深度关系、肢体长度、遮挡逻辑，且与角色外观解耦；
全上下文注入：在扩散变换器（DiT）中，将整个动作序列的姿态信号作为显式上下文注入，使模型在生成每一帧时都能参考全局运动语义，而非仅依赖局部帧间差。

这一设计使 SCAIL 能对整个运动序列进行时空推理，从而生成更自然、连贯的动作。

主要功能与特点

✅ 工作室级动画生成

支持单人/多人复杂动作（如旋转、深蹲、拥抱、击掌）；
即使参考图像与驱动视频在体型、风格、服装上差异巨大，仍能保持合理结构；
有效避免常见问题：四肢扭曲、关节错位、遮挡错误、身份漂移。

✅ 3D 姿态表示：鲁棒且可扩展

圆柱体骨骼表示天然支持深度感知与物理合理性；
可通过姿态增强（如缩放、旋转）适配不同角色比例；
支持动作重定向：将一段舞蹈动作迁移到卡通角色或异形身体上。

✅ 高效推理，无额外参数

全上下文注入通过条件注意力机制实现，不增加模型参数量；
推理速度与标准 DiT 相当，适合实际部署。

✅ Studio-Bench：首个面向影棚级动画的评测基准

构建了覆盖真人、卡通、3D模型、多人交互的多领域数据集；
评估指标包括 PSNR、SSIM、LPIPS、FVD，并引入物理一致性与动作语义对齐的人类评估。

实验结果

在 Studio-Bench 上的测试表明：

定量表现：SCAIL-14B 在自驱动动画任务中达到 PSNR 19.22、SSIM 0.660、LPIPS 0.206、FVD 176.16，全面优于现有方法；
用户偏好：在动作准确性、时间连贯性、物理合理性三项指标上，SCAIL 显著胜出，尤其在多角色击掌、转身拥抱、大幅度跳跃等场景中优势明显；
定性效果：生成视频无明显结构错误，肢体运动流畅，遮挡关系合理，即使在快速旋转或复杂交互中仍保持身份与形态一致。