南洋理工大学和商汤科技的研究团队近期推出了一项革命性的技术——大运动模型(LMM),这是一个通用的多模态运动生成模型。LMM旨在统一并简化动画和视频制作中的多种运动生成任务,如文本生成运动、音乐生成舞蹈等。与以往针对单一任务开发的专用模型不同,LMM通过一个通用框架涵盖了多个任务,显著提高了模型的可扩展性和泛化能力。该模型旨在解决人类运动生成任务中数据格式不一致、评估指标多样以及跨任务知识转移困难等问题,通过整合多模态和多任务运动数据集,设计统一的运动表示和问题框架,实现了在多种运动生成任务上的高效性能。
- 项目主页:https://mingyuan-zhang.github.io/projects/LMM.html
- GitHub:https://github.com/mingyuan-zhang/LMM
- Demo:https://huggingface.co/spaces/mingyuan/LMM
主要功能
- 多任务运动生成:能够执行多种运动生成任务,如 text-to-motion(文本到动作)、action-to-motion(动作到动作)、motion prediction(动作预测)、speech-to-gesture(语音到手势)、music-to-dance(音乐到舞蹈)、motion imitation(动作模仿)、motion in-betweening(动作插值)以及三个新引入的任务:conditional motion prediction(条件动作预测)、conditional motion in-betweening(条件动作插值)和 multi-condition motion generation(多条件动作生成)。
- 高质量动作生成:利用大规模训练数据和精心设计的架构,能够根据输入的文本描述或其他条件信号生成高质量、自然流畅且逻辑合理的动作序列。例如,在文本驱动的动作生成中,能够对多样化的文本描述做出精细响应,如生成 “双手叉腰并摇头”“坐下并靠在桌子上” 等动作,并且在音乐节奏条件下,生成的动作能够与音乐节拍同步,如 “随着音乐拍手”“弹奏吉他” 等动作。
LMM的核心优势
1、数据整合:MotionVerse
- 全面的数据集:LMM引入了一个名为MotionVerse的综合性基准数据集,涵盖了10个不同的运动生成任务、16个数据集、总计32万条序列和1亿帧数据。这些数据来自多种模态(如文本、音乐、图像等),并通过预处理统一为一致的格式。
- TOMATO表示法:为了处理复杂的运动序列,研究人员将运动数据转换为TOMATO表示法,并进一步划分为十个独立的身体部位。这种表示法不仅简化了数据处理,还为模型提供了更细粒度的控制能力。
- 跨模态特征提取:对于多模态条件信号(如文本、音乐等),LMM使用ImageBind将其转换为跨模态的统一特征,确保不同模态之间的兼容性和一致性。
2、创新的架构设计:ArtAttention
- 关节注意力机制:LMM的核心是ArtAttention,这是一种专门为运动生成设计的注意力机制。它能够感知和建模身体的不同部位,结合空间和时间注意力分支,精细化地处理运动特征。ArtAttention不仅增强了模型对多模态条件的适应性,还提供了更强的运动先验知识。
- Transformer骨干网络:LMM基于Diffusion Transformer架构,该架构在生成高质量运动序列方面表现出色。通过ArtAttention,LMM能够在生成过程中灵活调整运动细节,确保输出的运动序列既符合给定的多模态条件,又具有自然流畅的表现。
3、高效的预训练策略
- 可变帧率和掩码形式:LMM采用了一种新颖的预训练策略,通过随机下采样和随机掩码的方式增强模型的学习能力。这种策略使得LMM能够从多样化的训练数据中提取更多的知识,并在推理时更好地应对不同帧率和条件的变化。
- 无监督预训练 + 有监督微调:LMM的训练过程分为两个阶段:首先进行无监督预训练,以学习运动的基本模式和结构;然后进行有监督微调,以适应特定的任务需求。这种两阶段的训练方法不仅提高了模型的泛化能力,还确保了其在各种任务中的高性能表现。
实验结果与泛化能力
大量的实验表明,LMM在各种标准运动生成任务中均达到了与最先进的专用模型相媲美的性能。尤为重要的是,LMM在未见任务中展现出了强大的泛化能力和涌现特性。这意味着LMM不仅能够在已知任务上表现出色,还能在新的、未见过的任务中自适应地生成高质量的运动序列,极大地拓展了其应用范围。
应用场景与未来展望
LMM的推出为动画和视频制作领域带来了新的可能性。它可以应用于电影、游戏、虚拟现实等多个行业,帮助创作者更高效地生成逼真的运动效果。此外,LMM的泛化能力使其在未来可能应用于更多新兴领域,如机器人动作规划、体育训练模拟等。
通过这一研究,南洋理工大学和商汤科技展示了多模态运动生成领域的巨大潜力,并为未来的创新奠定了坚实的基础。随着技术的不断发展,LMM有望成为推动运动生成技术进步的关键力量。
评论0