TTT-Video：通过引入 Test-Time Training（TTT）层，成功让DiT 模型能够从文本故事板生成长达一分钟的视频

新技术9个月前发布小马良

511 0

英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员，通过引入 Test-Time Training（TTT）层，成功让预训练的 DiT 模型能够从文本故事板生成长达一分钟的视频。这项研究以经典的《猫和老鼠》动画为概念验证，展示了模型生成连贯、复杂且具有动态运动的多场景故事视频的能力。

项目主页：https://test-time-training.github.io/video-dit
GitHub：https://github.com/test-time-training/ttt-video-dit

TTT-Video：让 AI 创作长视频成为可能

TTT-Video 是一个用于微调 DiT 模型以实现风格迁移和上下文扩展的开源项目。研究人员通过在模型中加入 TTT 层，处理全局上下文中的长距离关系，同时重用原始预训练模型的注意力层，对每个三秒片段进行局部注意力处理。这种方法不仅保留了预训练模型的优势，还显著提升了模型对长序列的处理能力。

在这个项目中，研究人员提供了支持生成最长 63 秒视频的训练和推理代码。他们首先在原始预训练的 3 秒视频长度上微调模型，加入 TTT 层以实现风格迁移。随后，通过分阶段对 9 秒、18 秒、30 秒和 63 秒的视频长度进行训练，逐步扩展模型的上下文处理能力。

模型架构：基于 CogVideoX 5B 的改进

TTT-Video 的架构基于 CogVideoX 5B 模型，这是一个用于文本到视频生成的扩散变换器。研究人员在其中加入了 TTT 层进行优化，保留了原始预训练的注意力层，用于对每个 3 秒片段及其对应文本进行局部注意力处理。此外，TTT 层被插入以处理全局序列及其反向版本，其输出通过残差连接进行门控。

为了将上下文扩展到超过预训练的 3 秒片段，研究人员将每个片段与文本和视频嵌入交错排列。这种设计使得模型能够在处理长序列时保持连贯性和动态运动。

主要功能与特点

长视频生成

功能：能够从文本故事板生成长达一分钟的视频，支持复杂的多场景故事。
特点：通过多阶段微调策略，逐步扩展模型的上下文长度，适应更长的视频生成任务。

动态运动和连贯性

功能：生成的视频具有连贯的场景过渡和自然的动态运动。
特点：TTT 层的引入显著提升了模型对长序列的处理能力，使得生成的视频更加流畅和自然。

文本到视频的映射

功能：根据详细的文本描述（如故事板）生成对应的视频内容。
特点：将文本故事分解为多个 3 秒的片段，每个片段通过文本和视频标记的组合输入到模型中，模型在每个片段上独立应用局部自注意力，而 TTT 层则全局处理整个序列。

高效的长序列处理

功能：TTT 层的隐藏状态可以是神经网络，因此比传统的 RNN 层更具表现力，能够处理复杂的长序列。
特点：通过内循环小批量更新和片上张量并行技术，优化了 TTT 层的训练和推理过程，使其能够高效处理长序列。

工作原理

预训练模型的选择

以预训练的扩散变换器（CogVideo-X 5B）为基础，该模型原本只能生成 3 秒的视频片段。

TTT 层的集成

在预训练模型中插入 TTT 层，并通过微调使其能够处理长达一分钟的视频。TTT 层通过在测试时对隐藏状态进行训练（即测试时训练），从而能够处理长序列。

多阶段微调

采用多阶段微调策略，逐步扩展上下文长度，从 3 秒逐步增加到 63 秒。

文本到视频的映射

将文本故事分解为多个 3 秒的片段，每个片段通过文本和视频标记的组合输入到模型中。模型在每个片段上独立应用局部自注意力，而 TTT 层则全局处理整个序列。

并行化和优化

通过内循环小批量更新和片上张量并行技术，优化了 TTT 层的训练和推理过程，使其能够高效处理长序列。

新技术 # CogVideoX-5B # DiT 模型 # TTT-Video

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

高效灵活的对象检测工具YOLO-World

高效灵活的对象检测工具YOLO-World

新技术 # YOLO-World # 对象检测工具 # 腾讯AI实验室

2年前

09610

动态视频模型DynamiCrafter：为静态图片添加动画效果

动态视频模型DynamiCrafter：为静态图片添加动画效果

新技术 # DynamiCrafter # 视频模型

2年前

05720

思维链推理策略在自回归图像生成中的应用潜力

思维链推理策略在自回归图像生成中的应用潜力

新技术 # 思维链

12个月前

02450

CanonSwap：通过规范空间调制实现高保真且一致的视频人脸交换

CanonSwap：通过规范空间调制实现高保真且一致的视频人脸交换

新技术 # CanonSwap # 视频换脸

6个月前

01830

暂无评论

none

暂无评论...