TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

新技术2个月前发布 小马良
151 0

英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员,通过引入 Test-Time Training(TTT)层,成功让预训练的 DiT 模型能够从文本故事板生成长达一分钟的视频。这项研究以经典的《猫和老鼠》动画为概念验证,展示了模型生成连贯、复杂且具有动态运动的多场景故事视频的能力。

TTT-Video:让 AI 创作长视频成为可能

TTT-Video 是一个用于微调 DiT 模型以实现风格迁移和上下文扩展的开源项目。研究人员通过在模型中加入 TTT 层,处理全局上下文中的长距离关系,同时重用原始预训练模型的注意力层,对每个三秒片段进行局部注意力处理。这种方法不仅保留了预训练模型的优势,还显著提升了模型对长序列的处理能力。

TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

在这个项目中,研究人员提供了支持生成最长 63 秒视频的训练和推理代码。他们首先在原始预训练的 3 秒视频长度上微调模型,加入 TTT 层以实现风格迁移。随后,通过分阶段对 9 秒、18 秒、30 秒和 63 秒的视频长度进行训练,逐步扩展模型的上下文处理能力。

模型架构:基于 CogVideoX 5B 的改进

TTT-Video 的架构基于 CogVideoX 5B 模型,这是一个用于文本到视频生成的扩散变换器。研究人员在其中加入了 TTT 层进行优化,保留了原始预训练的注意力层,用于对每个 3 秒片段及其对应文本进行局部注意力处理。此外,TTT 层被插入以处理全局序列及其反向版本,其输出通过残差连接进行门控。

TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

为了将上下文扩展到超过预训练的 3 秒片段,研究人员将每个片段与文本和视频嵌入交错排列。这种设计使得模型能够在处理长序列时保持连贯性和动态运动。

主要功能与特点

长视频生成

  • 功能:能够从文本故事板生成长达一分钟的视频,支持复杂的多场景故事。
  • 特点:通过多阶段微调策略,逐步扩展模型的上下文长度,适应更长的视频生成任务。

动态运动和连贯性

  • 功能:生成的视频具有连贯的场景过渡和自然的动态运动。
  • 特点:TTT 层的引入显著提升了模型对长序列的处理能力,使得生成的视频更加流畅和自然。

文本到视频的映射

  • 功能:根据详细的文本描述(如故事板)生成对应的视频内容。
  • 特点:将文本故事分解为多个 3 秒的片段,每个片段通过文本和视频标记的组合输入到模型中,模型在每个片段上独立应用局部自注意力,而 TTT 层则全局处理整个序列。

高效的长序列处理

  • 功能:TTT 层的隐藏状态可以是神经网络,因此比传统的 RNN 层更具表现力,能够处理复杂的长序列。
  • 特点:通过内循环小批量更新和片上张量并行技术,优化了 TTT 层的训练和推理过程,使其能够高效处理长序列。

工作原理

预训练模型的选择

  • 以预训练的扩散变换器(CogVideo-X 5B)为基础,该模型原本只能生成 3 秒的视频片段。

TTT 层的集成

  • 在预训练模型中插入 TTT 层,并通过微调使其能够处理长达一分钟的视频。TTT 层通过在测试时对隐藏状态进行训练(即测试时训练),从而能够处理长序列。

多阶段微调

  • 采用多阶段微调策略,逐步扩展上下文长度,从 3 秒逐步增加到 63 秒。

文本到视频的映射

  • 将文本故事分解为多个 3 秒的片段,每个片段通过文本和视频标记的组合输入到模型中。模型在每个片段上独立应用局部自注意力,而 TTT 层则全局处理整个序列。

并行化和优化

  • 通过内循环小批量更新和片上张量并行技术,优化了 TTT 层的训练和推理过程,使其能够高效处理长序列。
© 版权声明

相关文章

暂无评论

none
暂无评论...