StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

视频模型2个月前发布小马良

44 0

生成一段包含多个镜头、角色一致、场景连贯、时长达一分钟的叙事视频，是当前视频生成模型的重大挑战。主流方法要么局限于单镜头，要么在跨镜头切换时出现角色崩坏、场景断裂等问题。

由南洋理工大学与字节跳动联合提出的新框架 StoryMem，从人类记忆机制中获得启发，提出了一种全新范式：将长视频叙事重构为“基于显式视觉记忆的迭代镜头合成”。

项目主页：https://kevin-thu.github.io/StoryMem
GitHub：https://github.com/Kevin-thu/StoryMem
模型：https://huggingface.co/Kevin-thu/StoryMem

它不需要从头训练大规模视频模型，而是通过一种轻量设计，将现有单镜头扩散模型“升级”为多镜头叙事者。

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

核心思想：让模型“记住”之前拍了什么

传统视频生成模型在生成新镜头时，往往“忘记”了前几秒的内容。StoryMem 的关键创新在于引入了一个动态更新的视觉记忆库：

在生成每个镜头后，系统会从该镜头中提取语义关键帧；
通过 CLIP 特征选择与 HPSv3 审美质量过滤，只保留信息丰富且视觉高质量的帧；
这些帧被存入记忆库，作为后续镜头生成的视觉上下文。

这种机制模拟了人类在观看电影时对角色、场景的持续认知——故事在推进，但记忆在延续。

技术实现：记忆如何注入生成过程？

StoryMem 提出 Memory-to-Video（M2V）架构，将记忆融入预训练的单镜头视频扩散模型（如 Video DiT），仅需 LoRA 微调，即可实现跨镜头一致性。

具体流程如下：

记忆编码：记忆库中的关键帧通过 3D VAE 编码为潜在表示；
记忆注入：在去噪过程中，记忆潜在与当前含噪视频潜在在潜在空间拼接，并通过负 RoPE（旋转位置嵌入）偏移对齐时空位置；
条件生成：微调后的 DiT 模型以记忆为条件，生成与历史镜头角色一致、场景连贯的新镜头；
记忆更新：新镜头生成后，再次提取关键帧，更新记忆库，进入下一迭代。

整个过程无需重新训练基础模型，仅用少量 LoRA 参数即可激活“叙事记忆”能力。

关键优势

多镜头长视频生成

支持生成跨越多个场景、时长达 60 秒的连贯故事，每个镜头均可由文本精确控制。

跨镜头一致性

在 ST-Bench 基准测试中，StoryMem 的整体一致性比预训练基线提升 28.7%，比当前最佳方法 HoloCine 高出 9.4%。

电影级视觉质量

继承单镜头模型的高美学质量、精准提示跟随与摄像机动态控制能力，画面细节丰富、运镜自然。

灵活扩展

支持平滑镜头过渡（如淡入淡出、匹配剪辑）；
可结合 参考图像（R2V）初始化记忆库，实现角色或风格定制；
天然兼容 I2V、R2V 等现有生成范式。

评估：新基准 ST-Bench

为系统评估多镜头叙事能力，团队构建了 ST-Bench：

包含 30 个长故事脚本，涵盖动画、写实、科幻、教育等多种风格；
每个故事含 4–8 个镜头，总时长 45–60 秒；
评估维度：跨镜头一致性、视觉质量、文本对齐度、叙事连贯性。

用户研究表明，StoryMem 在角色身份保持与场景过渡自然性上显著优于所有基线。

视频模型 # StoryMem # Wan2.2

文章版权归作者所有，未经允许请勿转载。

DLoRAL：一种兼顾细节与时间一致性的视频超分辨率新方法

视频模型 # DLoRAL # 视频超分辨率

8个月前

03860

阿里通义实验室 Wan 团队正式释出Wan2.1-VACE模型：支持视频生成与编辑的模型

视频模型

10个月前

02450

CogVideoX-Fun：基于CogVideoX结构修改后模型

视频模型

1年前

03810

美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar：支持长视频、多模态输入与多人物动画

视频模型 # LongCat-Video-Avatar # 美团

2个月前

0450

暂无评论

暂无评论...

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

核心思想：让模型“记住”之前拍了什么

技术实现：记忆如何注入生成过程？

关键优势

多镜头长视频生成

跨镜头一致性

电影级视觉质量

灵活扩展

评估：新基准 ST-Bench

OmniVCus：用多模态控制信号实现前馈式主题驱动视频定制

Stable Video Infinity（SVI）发布 2.0 Pro：基于错误回收机制的无限长视频生成模型

相关文章

DLoRAL：一种兼顾细节与时间一致性的视频超分辨率新方法

阿里通义实验室 Wan 团队正式释出Wan2.1-VACE模型：支持视频生成与编辑的模型

CogVideoX-Fun：基于CogVideoX结构修改后模型

美团 LongCat 发布统一音频驱动视频模型LongCat-Video-Avatar：支持长视频、多模态输入与多人物动画

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

Obsidian 1.12 重磅更新：原生 CLI 命令行界面上线，解锁笔记自动化与 AI 工作流新玩法

手慢无！联通云限量 5000 台免费送：4 核 8G 服务器预装 OpenClaw，一键开启“云端养虾”

LiquidAI 发布 LFM2-24B-A2B：240 亿参数 MoE 模型，仅需 20 亿激活即可在 32GB 内存笔记本上流畅运行

零成本尝鲜 OpenClaw：一部安卓手机就能跑起本地 AI 助手

新拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

CoPaw

YouMind

新waoo

nanobot

OpenClaw（Clawdbot/Moltbot）

OpenCloud

StoryMem：基于Wan2.2的新框架，用“视觉记忆”生成连贯的多镜头长视频

核心思想：让模型“记住”之前拍了什么

技术实现：记忆如何注入生成过程？

关键优势

多镜头长视频生成

跨镜头一致性

电影级视觉质量

灵活扩展

评估：新基准 ST-Bench

OmniVCus：用多模态控制信号实现前馈式主题驱动视频定制

Stable Video Infinity（SVI）发布 2.0 Pro：基于错误回收机制的无限长视频生成模型

相关文章

文章

标签云

网址

CoPaw

YouMind

新waoo

nanobot

OpenClaw（Clawdbot/Moltbot）

OpenCloud