智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

高质量角色动画长期以来依赖昂贵的动作捕捉设备、繁琐的手动绑定和大量人力修型。尽管近年视频生成模型取得进展,但在复杂动作、风格化角色、多角色交互等场景下,现有方法仍普遍存在结构失真、时间不连贯、身份泄漏等问题。

为系统性解决这些瓶颈,智谱AI推出了 SCAIL(Studio-grade Character Animation via In-Context Learning) —— 一个面向生产级角色动画的生成框架。它通过3D一致的姿态表征全上下文姿态注入机制,显著提升了动画的结构保真度、时间连贯性与跨身份泛化能力

智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画

核心问题与突破

现有角色动画方法通常将姿态表示为2D关键点、光流或骨架图。这类表征存在两个根本缺陷:

  1. 身份信息泄漏:姿态信号中混入外观特征,导致模型在跨角色重定向时生成“混合身份”;
  2. 运动信息不足:缺乏深度、遮挡与肢体比例信息,难以支撑大幅度动作或多人交互。

SCAIL 重新定义了姿态的表示与注入方式:

  • 3D一致姿态表征:使用 NLFPose 估计3D人体关键点,构建符合人体拓扑的骨骼结构,并将每根骨骼渲染为空间圆柱体。该表示保留了深度关系、肢体长度、遮挡逻辑,且与角色外观解耦;
  • 全上下文注入:在扩散变换器(DiT)中,将整个动作序列的姿态信号作为显式上下文注入,使模型在生成每一帧时都能参考全局运动语义,而非仅依赖局部帧间差。

这一设计使 SCAIL 能对整个运动序列进行时空推理,从而生成更自然、连贯的动作。

主要功能与特点

✅ 工作室级动画生成

  • 支持单人/多人复杂动作(如旋转、深蹲、拥抱、击掌);
  • 即使参考图像与驱动视频在体型、风格、服装上差异巨大,仍能保持合理结构;
  • 有效避免常见问题:四肢扭曲、关节错位、遮挡错误、身份漂移。

✅ 3D 姿态表示:鲁棒且可扩展

  • 圆柱体骨骼表示天然支持深度感知物理合理性
  • 可通过姿态增强(如缩放、旋转)适配不同角色比例;
  • 支持动作重定向:将一段舞蹈动作迁移到卡通角色或异形身体上。

✅ 高效推理,无额外参数

  • 全上下文注入通过条件注意力机制实现,不增加模型参数量
  • 推理速度与标准 DiT 相当,适合实际部署。

✅ Studio-Bench:首个面向影棚级动画的评测基准

  • 构建了覆盖真人、卡通、3D模型、多人交互的多领域数据集;
  • 评估指标包括 PSNR、SSIM、LPIPS、FVD,并引入物理一致性动作语义对齐的人类评估。

实验结果

在 Studio-Bench 上的测试表明:

  • 定量表现:SCAIL-14B 在自驱动动画任务中达到 PSNR 19.22、SSIM 0.660、LPIPS 0.206、FVD 176.16,全面优于现有方法;
  • 用户偏好:在动作准确性、时间连贯性、物理合理性三项指标上,SCAIL 显著胜出,尤其在多角色击掌、转身拥抱、大幅度跳跃等场景中优势明显;
  • 定性效果:生成视频无明显结构错误,肢体运动流畅,遮挡关系合理,即使在快速旋转或复杂交互中仍保持身份与形态一致。
智谱AI发布面向生产级角色动画的生成框架 SCAIL:通过3D一致姿态表征实现影棚级角色动画
© 版权声明

相关文章

暂无评论

none
暂无评论...