斯坦福大学、字节跳动、约翰·霍普金斯大学和香港中文大学的研究人员推出一种名为 Mixture of Contexts (MoC) 的新型注意力机制模块来解决长视频生成中的长期记忆问题。长视频生成的关键挑战在于模型需要在长时间跨度内保留和检索关键事件,而不会出现内容坍塌、漂移或丢失身份等问题。
例如,生成一部动画短片时,模型需要记住角色的身份、场景布局以及之前的动作,以确保整个视频的连贯性。

主要功能
- 长视频生成:能够生成长达数分钟甚至更长时间的视频内容,而不仅仅是几秒钟的片段。
- 记忆一致性:确保视频中的角色、场景和动作在长时间跨度内保持一致,避免内容的断裂或重复。
- 高效计算:通过稀疏注意力机制大幅减少计算量和内存消耗,使得长视频生成在实际应用中可行。
主要特点
- 稀疏注意力机制:MoC 通过动态选择与当前查询最相关的上下文块,而不是对所有上下文进行密集计算,从而显著提高了计算效率。
- 自适应路由:每个查询动态选择最相关的上下文块,这种自适应性使得模型能够根据具体需求调整注意力分配。
- 内容对齐的块划分:将视频序列按照自然边界(如帧、镜头、字幕)划分为语义上一致的块,提高了检索的准确性。
- 因果路由:通过因果掩码防止循环依赖,确保信息单向流动,提高了生成的稳定性和连贯性。
工作原理
- 块划分:将视频序列按照帧、镜头和字幕等自然边界划分为多个内容对齐的块。
- 动态路由:每个查询动态选择最相关的块进行注意力计算,通过一个无参数的 top-k 路由器实现。
- 稀疏注意力:只对选定的块进行注意力计算,大幅减少了计算量和内存消耗。
- 因果掩码:通过因果掩码防止循环依赖,确保信息单向流动,提高生成的稳定性和连贯性。
- 训练与优化:在训练过程中,逐渐调整块的粒度和路由的选择性,使得模型能够更好地专注于最有信息量的上下文。

测试结果
- 单镜头视频生成:在 6k 个 token 的短视频生成任务中,MoC 方法在所有 VBench 指标上均与密集注意力基线相当或更好,尽管计算量大幅减少。
- 多镜头视频生成:在 180k 个 token 的长视频生成任务中,MoC 方法实现了 2.2 倍的速度提升,并且在运动多样性等指标上表现更好,同时保持了较高的视觉质量。
- 计算效率:MoC 方法在长视频生成中将计算量减少了 7 倍以上,FLOPs 从 1.7×10^13 降低到 2.3×10^12,显著提高了生成效率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















