StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

视频模型6小时前发布 小马良
4 0

生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频,是当前视频生成模型的重大挑战。主流方法要么局限于单镜头,要么在跨镜头切换时出现角色崩坏、场景断裂等问题。

南洋理工大学与字节跳动联合提出的新框架 StoryMem,从人类记忆机制中获得启发,提出了一种全新范式:将长视频叙事重构为“基于显式视觉记忆的迭代镜头合成”

它不需要从头训练大规模视频模型,而是通过一种轻量设计,将现有单镜头扩散模型“升级”为多镜头叙事者。

StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

核心思想:让模型“记住”之前拍了什么

传统视频生成模型在生成新镜头时,往往“忘记”了前几秒的内容。StoryMem 的关键创新在于引入了一个动态更新的视觉记忆库

  • 在生成每个镜头后,系统会从该镜头中提取语义关键帧
  • 通过 CLIP 特征选择与 HPSv3 审美质量过滤,只保留信息丰富且视觉高质量的帧;
  • 这些帧被存入记忆库,作为后续镜头生成的视觉上下文

这种机制模拟了人类在观看电影时对角色、场景的持续认知——故事在推进,但记忆在延续

技术实现:记忆如何注入生成过程?

StoryMem 提出 Memory-to-Video(M2V) 架构,将记忆融入预训练的单镜头视频扩散模型(如 Video DiT),仅需 LoRA 微调,即可实现跨镜头一致性。

具体流程如下:

  1. 记忆编码:记忆库中的关键帧通过 3D VAE 编码为潜在表示;
  2. 记忆注入:在去噪过程中,记忆潜在与当前含噪视频潜在在潜在空间拼接,并通过负 RoPE(旋转位置嵌入)偏移对齐时空位置;
  3. 条件生成:微调后的 DiT 模型以记忆为条件,生成与历史镜头角色一致、场景连贯的新镜头;
  4. 记忆更新:新镜头生成后,再次提取关键帧,更新记忆库,进入下一迭代。

整个过程无需重新训练基础模型,仅用少量 LoRA 参数即可激活“叙事记忆”能力。

StoryMem:基于Wan2.2的新框架,用“视觉记忆”生成连贯的多镜头长视频

关键优势

多镜头长视频生成

支持生成跨越多个场景、时长达 60 秒的连贯故事,每个镜头均可由文本精确控制。

跨镜头一致性

在 ST-Bench 基准测试中,StoryMem 的整体一致性比预训练基线提升 28.7%,比当前最佳方法 HoloCine 高出 9.4%。

电影级视觉质量

继承单镜头模型的高美学质量、精准提示跟随与摄像机动态控制能力,画面细节丰富、运镜自然。

灵活扩展

  • 支持平滑镜头过渡(如淡入淡出、匹配剪辑);
  • 可结合 参考图像(R2V)初始化记忆库,实现角色或风格定制;
  • 天然兼容 I2V、R2V 等现有生成范式。

评估:新基准 ST-Bench

为系统评估多镜头叙事能力,团队构建了 ST-Bench

  • 包含 30 个长故事脚本,涵盖动画、写实、科幻、教育等多种风格;
  • 每个故事含 4–8 个镜头,总时长 45–60 秒;
  • 评估维度:跨镜头一致性、视觉质量、文本对齐度、叙事连贯性

用户研究表明,StoryMem 在角色身份保持场景过渡自然性上显著优于所有基线。

© 版权声明

相关文章

暂无评论

none
暂无评论...