字节跳动推出 X-UniMotion:首个能精准复刻手部动作的视频生成模型

新技术5个月前发布 小马良
368 0

字节跳动研究团队发布了一项令人瞩目的视频生成新成果 —— X-UniMotion。该模型能够基于参考人物和驱动动作视频,实现对全身动作(尤其是复杂手部动作)的高精度复现,几乎看不出瑕疵,尤其在手部细节处理上表现出色。目前该项目尚未开源,仅公布了技术方案与部分演示结。

技术亮点:统一且身份无关的运动潜在表示

X-UniMotion 提出了一种全新的端到端训练框架,用于联合学习人体全身运动的隐式潜在表示,并结合 DiT(Diffusion Transformer)网络生成高质量动画视频。

其核心思想是通过一个统一的运动编码机制,将复杂的肢体动作、手部姿态和面部表情解耦表达,从而实现从任意驱动视频中提取动作信息,并将其迁移到不同身份的参考图像上。

模型架构概述:

  1. 全局运动编码器(𝐸)
    • 从驱动图像 $ I_D $ 中提取一维潜在运动描述符 $ z $,捕捉全身关节运动。
  2. 局部动作增强
    • 左右手动作分别由 $ z_{lh} $ 和 $ z_{rh} $ 表示;
    • 面部表情由 $ z_f $ 描述;
    • 局部特征由对应的手部和面部图像补丁通过 $ E_h $ 和 $ E_f $ 提取。
  3. 身份无关设计
    • 引入空间与颜色增强策略,去除潜在表示中的身份线索,确保动作迁移不依赖于原始人物身份。
  4. 运动引导解码器(𝐷)
    • 将潜在运动标记重新映射到参考主体 $ I_S $ 的身体结构中,输出空间运动引导图。
  5. DiT 视频生成网络
    • 运动引导图与噪声视频潜在表示拼接后输入 DiT 模型;
    • 面部动作 $ z_f $ 通过跨注意力机制注入 DiT 网络,控制表情变化。
  6. 双重监督机制
    • 在训练过程中,使用 $ D_h $ 和 $ D_n $ 解码器预测关节热图和手部法线图,以提升动作表达的准确性。

推理流程简述:

在推理阶段,X-UniMotion 直接从驱动视频的每一帧中提取潜在运动编码,结合参考图像的身份信息,生成具有高度真实感、身份一致性的动画视频。整个过程无需微调或额外数据支持,即可实现高质量的动作迁移。

结果展示

尽管目前项目尚未开放代码与完整数据集,但研究团队已展示了多个测试案例,涵盖外观与动作解耦、多样性生成以及与现有最先进方法的对比:

✅ 外观与动作解耦

  • 第一列为驱动视频;
  • 第二列为参考图像;
  • 第三列为 X-UniMotion 生成的结果;
  • 动作自然流畅,身份保持一致,尤其在手部动作上表现突出。

✅ 多样性生成

  • 同一参考图像可适配多种动作风格;
  • 支持包括舞蹈、手势、表情在内的多样化动作迁移。

✅ 与 SOTA 方法对比

  • 在多个关键指标(如动作连贯性、身份一致性、手部精细度)上优于当前主流方法;
  • 特别是在手部动作的还原上,显著减少模糊与失真现象。
© 版权声明

相关文章

暂无评论

none
暂无评论...