用于长视频生成的双速学习系统SLOWFAST-VGEN：模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统

251 0

人类拥有一个独特的学习系统，它既能从普遍的世界规律中缓慢学习，也能迅速地将新的经历转化为情景记忆。这种能力使我们在面对新情况时能灵活应对，同时保持对已知世界的深刻理解。然而，现有的视频生成技术大多聚焦于利用大规模数据进行缓慢学习，忽略了快速学习这一关键环节，尤其是情景记忆的即时存储。

SLOWFAST-VGEN：动作驱动长视频生成的新突破

为了解决上述问题，加州大学洛杉矶分校、微软研究院及纽约州立大学布法罗分校的科学家们联合开发了SLOWFAST-VGEN，这是一个用于长视频生成的双速学习系统，它模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统。该系统旨在生成与动作驱动相关的长视频，同时保持视频内容的连贯性和一致性。

慢速学习：采用掩码条件视频扩散模型，专注于理解世界的基本动态。这一部分的工作是建立在大量数据基础上的，旨在捕捉视频序列中的深层结构和规律。
快速学习：引入了时间LoRA（Low-Rank Adaptation）模块，在视频生成过程中实现实时调整。快速学习机制能够依据当前的输入和输出即时优化参数，有效存储和利用短期情景信息。

此外，研究团队还设计了一种慢-快学习循环算法，将快速学习过程无缝嵌入到慢速学习框架中。这一算法不仅提高了模型对复杂多变情境的记忆力，还增强了其在生成连续场景时的一致性和连贯性。

项目主页：https://slowfast-vgen.github.io
GitHub：https://github.com/slowfast-vgen/slowfast-vgen

用于长视频生成的双速学习系统SLOWFAST-VGEN：模仿了人类大脑中慢速学习和快速学习相结合的互补学习系统

例如，SLOWFAST-VGEN可以生成一个视频，展示一个人在厨房中按照指令“拿起苹果”、“将苹果放入绿色碗中”、“将面包放入白色碗中”等一系列动作。系统能够根据文本指令生成视频，并确保在长时间跨度内，视频内容保持一致性，比如在视频中多次访问同一场景时，场景保持不变。

主要功能：

慢速学习（Slow Learning）：通过预训练学习世界模型，模拟不同场景下的一般动态。
快速学习（Fast Learning）：在推理时快速适应新环境并存储情节记忆，以保持长视频的连贯性。
长视频生成：能够根据文本指令生成长视频，并在视频生成过程中保持场景和动作的一致性。
长视野规划任务：支持需要有效存储长期情节记忆的长视野规划任务。

主要特点：

双速学习系统：结合了慢速学习和快速学习，以处理长视频中的长期记忆和快速适应。
情节记忆存储：通过TEMP-LORA模块在参数中存储情节记忆，有效管理长视频序列。
动作驱动的视频生成：能够根据文本描述的动作生成视频，模拟人类如何根据行动预期结果。
大规模数据集：为了支持慢速学习，收集了包含200k视频的大型数据集，覆盖多种场景。

工作原理：

SLOWFAST-VGEN通过以下步骤工作：

慢速学习：使用掩码条件视频扩散模型，根据语言输入（动作描述）和前面的视频块生成后续视频块。
快速学习：在推理时，通过TEMP-LORA模块快速适应新场景并存储情节记忆，以便在长视频生成中保持连贯性。
慢-快学习循环算法：将内部快速学习循环整合到外部慢速学习循环中，使模型能够回忆起先前的多情节经验，进行上下文感知的技能学习。

大规模数据集支持下的模型训练

为了更好地训练SLOWFAST-VGEN模型，研究人员构建了一个包含20万个带有语言动作注释的视频数据集。这些视频覆盖了多种生活场景，为模型提供了丰富的学习材料，有助于其更准确地理解和模拟真实世界的动态变化。

实验结果展示显著优势

通过一系列严格的测试，SLOWFAST-VGEN展现出了超越传统模型的表现。在衡量视频质量的FVD评分上，SLOWFAST-VGEN达到了514分，显著优于基线模型的782分。更重要的是，在处理长时间视频时，该模型能够维持较低的场景切换频率（平均0.37次），相比之下，基线模型的这一数值高达0.89次。此外，慢-快学习循环算法还在长期规划任务中证明了自己的价值，显著提升了任务完成的效率和准确性。