来自清华大学和上海人工智能实验室的研究人员推出运动潜在一致性模型MotionLCM,它能够实时控制人体动作的生成。这个框架通过一种称为“潜在一致性模型”(Motion Latent Consistency Model)的技术,实现了从文本描述到动作的快速生成,并且能够精确控制动作的细节。例如,在游戏开发中,设计师可以通过MotionLCM快速生成角色的行走、跑步或战斗动作,只需提供相应的文本描述即可。这不仅节省了手动制作动画的时间,还可以实现更加丰富和多样化的动作设计。
- 项目主页:https://dai-wenxun.github.io/MotionLCM-page
- GitHub:https://github.com/Dai-Wenxun/MotionLCM
- Demo:https://huggingface.co/spaces/wxDai/MotionLCM
MotionLCM基于潜在扩散模型(MLD)。通过采用一步(或几步)推断方法,开发人员进一步提升了MotionLCM在运动生成中的运行时效率。为了确保有效的可控性,开发人员在MotionLCM的潜在空间中集成了运动ControlNet,并允许在原始运动空间中使用明确的控制信号(例如,骨盆轨迹)来直接控制生成过程,这与控制其他无潜在变量的扩散模型在运动生成中的应用类似。通过这些技术,MotionLCM能够实时地根据文本和控制信号生成人类运动。
主要功能
MotionLCM的主要功能包括:
- 文本到动作的生成(Text-to-Motion):将文本描述转换为人体动作。
- 动作控制:允许用户通过特定的控制信号(如骨盆轨迹)来精确控制生成的动作。
主要特点
- 实时性能:在大约30毫秒内完成动作的生成和控制,适合实时应用。
- 高效生成:通过潜在一致性蒸馏(latent consistency distillation),减少了生成高质量动作序列所需的步骤。
- 控制能力:引入了控制网络(ControlNet),在潜在空间中实现对动作的直接控制。
工作原理
MotionLCM的工作原理包括以下几个关键步骤:
- 潜在空间压缩:使用预训练的变分自编码器(VAE)将高维动作序列压缩成低维潜在向量。
- 潜在一致性蒸馏:在潜在空间中进行一致性蒸馏,以减少生成动作所需的步骤,同时保持质量。
- 控制网络:在潜在空间中引入控制网络,允许用户通过空间约束(如关节轨迹)来控制动作生成。
具体应用场景
MotionLCM可以应用于以下场景:
- 电影和动画:快速生成复杂的人体动作,提高动画制作的效率。
- 虚拟现实:为虚拟角色生成逼真的动作,提升用户体验。
- 游戏开发:根据玩家的输入或游戏情境,实时生成角色动作。
- 运动分析:分析和模拟人体运动,用于体育训练或医疗康复。
评论0