字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

258 0

字节跳动研究团队推出了Seaweed APT2，一款专为实时交互式场景设计的流式视频生成模型。该模型能够在单块H100 GPU上实现每秒24帧、分辨率高达736x416（等效640x480）的不间断视频生成，且支持长达一分钟的连续输出。相比现有方法，在速度与效率方面实现了显著提升。

项目主页：https://seaweed-apt.com/2

核心技术亮点

实时流式生成，低延迟高效率

Seaweed APT2采用自回归方式逐帧生成视频，每次生成一个潜在帧（包含4个实际视频帧），并通过KV缓存机制确保推理过程中计算量始终维持在1NFE（单次网络前向评估）。这种设计使得模型可以在极低延迟下持续输出视频流。

性能表现：
- 单卡H100即可实现实时24fps输出
- 支持分辨率达736x416（等效640x480）
- 可生成长达1分钟（1440帧）的视频
- 相比前代APT1，生成帧数提升近30倍

高分辨率支持

在多GPU环境下，Seaweed APT2还能实现更高清的视频生成：

使用8块H100 GPU，可实时生成1280x720分辨率视频
保持1NFE计算量的前提下，生成质量稳定，无明显退化

交互式应用场景展示

Seaweed APT2不仅支持高质量视频生成，还具备强大的交互控制能力，适用于多种实时互动场景。

虚拟人类生成

用户可以通过上传初始图像指定人物身份，并通过姿态控制实时调整虚拟人的动作。模型能够根据输入的姿态信号快速响应，生成符合预期的动作序列。

示例：用户上传一张正面人像后，通过姿态控制让虚拟人做出挥手、点头等动作。

世界探索模拟

用户还可以通过相机控制在虚拟环境中自由移动。模型根据相机位移和方向变化，动态生成对应的视角画面。

输入包括相机运动轨迹嵌入（位移与朝向）
输出为对应视角下的连续视频流
支持长时间沉浸式探索体验

创新架构设计

Seaweed APT2采用了对抗训练+自回归建模相结合的新范式，区别于传统扩散模型或基于标记预测的方法。

核心架构特点：

类似LLM的因果注意力机制，仅关注当前及之前帧
引入滑动窗口与KV缓存，保证推理速度恒定
生成器与判别器均采用因果结构
判别器并行处理所有帧，使用相对GAN损失与R1/R2正则化

自回归对抗后训练（AAPT）

该方法以预训练的双向视频扩散模型为基础，通过对抗训练将其转换为高效的自回归生成器。训练中引入了一系列支持长视频生成的技术，有效克服了数据与内存限制。

与其他方法对比

我们对Seaweed APT2与其他主流视频生成模型进行了横向比较，包括SkyReel-V2等基于扩散强制的方法。

扩散类模型在生成超过20秒视频时出现严重退化
调整CFG参数虽能缓解部分问题，但牺牲了画面结构一致性
Seaweed APT2在长期稳定性与视觉质量上表现更优

挑战与局限性

尽管Seaweed APT2在多个方面取得了突破，但仍存在一些挑战：

快速运动建模困难：由于1NFE设计，模型在处理突发性复杂动作时受限
长距离记忆不足：滑动窗口机制导致远距离依赖难以维持
物理规律约束缺失：部分生成结果可能违反常识物理规则
未进行偏好对齐训练：如扩散模型中常见的偏好优化尚未实施

关键技术验证实验

输入回收的重要性

我们通过消融实验验证了“输入回收”机制对长时间生成的影响。当不回收历史帧作为后续输入时，模型无法维持大范围运动的一致性。

教师强制 vs 学生强制训练

在训练策略上，尝试了类似语言模型的教师强制方法，但发现其在推理阶段容易产生漂移。推测原因在于视频生成涉及连续值预测，误差累积更为敏感。

迈向无限长度生成

Seaweed APT2具备一定的零样本外推能力，可在未见过的长度范围内继续生成视频：

成功生成5分钟（7200帧）视频
仍受制于滑动窗口机制，可能出现主体遗忘或结构崩溃

我们认为这是构建无限长度流式生成系统的重要一步，未来将持续优化模型的记忆机制与结构稳定性。

文章版权归作者所有，未经允许请勿转载。

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

视频模型 # LHM # 阿里通义实验室

12个月前

05770

Stable Video Infinity（SVI）发布 2.0 Pro：基于错误回收机制的无限长视频生成模型

视频模型 # Stable Video Infinity

2个月前

01260

视频人脸超分辨率的新型框架KEEP：解决视频中人脸图像的超分辨率问题，同时保持时间一致性

视频模型 # KEEP # 视频人脸超分辨率

10个月前

01890

Helios：北大与字节联手打造 14B 实时长视频模型，单卡 19.5 FPS 刷新生成速度纪录

视频模型 # Helios # 实时长视频模型

1周前

01010

暂无评论

暂无评论...

字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

核心技术亮点

实时流式生成，低延迟高效率

高分辨率支持

交互式应用场景展示

虚拟人类生成

世界探索模拟

创新架构设计

核心架构特点：

自回归对抗后训练（AAPT）

与其他方法对比

挑战与局限性

关键技术验证实验

输入回收的重要性

教师强制 vs 学生强制训练

迈向无限长度生成

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

字节跳动发布 LatentSync 1.6：聚焦高分辨率视频生成，解决模糊问题

相关文章

阿里通义实验室推出新型模型LHM：能够在几秒钟内从单张图像重建出可动画化的人体三维模型

Stable Video Infinity（SVI）发布 2.0 Pro：基于错误回收机制的无限长视频生成模型

视频人脸超分辨率的新型框架KEEP：解决视频中人脸图像的超分辨率问题，同时保持时间一致性

Helios：北大与字节联手打造 14B 实时长视频模型，单卡 19.5 FPS 刷新生成速度纪录

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

新腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

ComfyUI 更新速递：Qwen Image ControlNet/LoRA、EasyCache 与上下文窗口支持

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

字节跳动发布Seaweed APT2：专为实时交互式场景设计的流式视频生成模型

核心技术亮点

实时流式生成，低延迟高效率

高分辨率支持

交互式应用场景展示

虚拟人类生成

世界探索模拟

创新架构设计

核心架构特点：

自回归对抗后训练（AAPT）

与其他方法对比

挑战与局限性

关键技术验证实验

输入回收的重要性

教师强制 vs 学生强制训练

迈向无限长度生成

字节跳动推出视频生成模型 Seedance 1.0，视频生成迈入“电影级”体验

字节跳动发布 LatentSync 1.6：聚焦高分辨率视频生成，解决模糊问题

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw