Helios：北大与字节联手打造 14B 实时长视频模型，单卡 19.5 FPS 刷新生成速度纪录

179 0

在 AI 视频生成领域，长期存在一个“不可能三角”：生成速度快、视频时长长、画面质量高，三者往往难以兼得。主流模型要么只能生成几秒的短视频，要么需要数十分钟才能渲染出几秒钟的画面，且长视频极易出现人物变形、场景崩坏的“漂移”现象。

项目主页：https://pku-yuangroup.github.io/Helios-Page
GitHub：https://github.com/PKU-YuanGroup/Helios-Page
模型：https://huggingface.co/collections/BestWishYsh/helios
Demo：https://huggingface.co/spaces/multimodalart/Helios-Distilled

由北京大学、字节跳动 Seed 团队及 Canva 联合研发的 Helios 模型作为一款拥有 140 亿参数 的巨无霸模型，Helios 竟能在单张 NVIDIA H100 GPU 上以 19.5 FPS 的速度实时生成长达一分钟的高清视频，其速度不仅碾压同量级模型，甚至超越了众多轻量级小模型，同时保持了卓越的画质稳定性。

Helios：北大与字节联手打造 14B 实时长视频模型，单卡 19.5 FPS 刷新生成速度纪录

核心突破：重新定义“实时”与“长视频”

Helios 的成功并非偶然，它在三个关键维度上实现了前所未有的突破：

1. 真正的实时生成 (Real-Time)

极速推理：在单张 H100 上达到 19.5 FPS（昇腾 NPU 上约 10 FPS），意味着用户输入提示词后，视频几乎能“边说边看”地流畅播放。
对比震撼：同等规模的 Wan 2.1 模型速度仅为 0.33 FPS，Helios 快了 59 倍；甚至比许多专门优化过的 1.3B 小模型还要快，真正做到了“又大又快”。

2. 分钟级长视频稳如泰山

超长上下文：支持稳定生成 1440 帧（约 1 分钟）的连续视频。
零漂移奇迹：无需依赖复杂的“抗漂移”启发式策略（如关键帧重绘、错误银行等），Helios 从头到尾保持人物一致、场景连贯、色彩稳定，彻底解决了长视频“越往后越崩坏”的行业难题。

3. 极致的资源效率

单卡训练/推理：无需昂贵的多卡并行或参数分片框架。
超高密度：在 80GB 显存 的单卡上，甚至能同时容纳 4 个 14B 模型实例进行训练或推理，大幅降低了研究和部署门槛，让小团队也能玩得起顶级大模型。

技术揭秘：超级动画师的四大独门绝技

Helios 是一个统一的 14B 自回归扩散模型，原生支持文生视频 (T2V)、图生视频 (I2V) 和视频生视频 (V2V)。它是如何做到“又快又稳”的？

第一招：分层记忆压缩 (Hierarchical Memory Compression)

为了解决长视频显存爆炸的问题，Helios 模仿人类记忆机制：

短期记忆：清晰保留最近几帧的细节。
中期记忆：将稍早的帧压缩为低分辨率缩略图。
长期记忆：将更早的历史进一步压缩为抽象的“印象派草图”。
这种策略使得无论视频多长，显存占用几乎恒定，实现了无限时长的理论可能。

第二招：金字塔式渐进作画 (Pyramidal Progressive Generation)

摒弃传统的“一步到位”高分辨率生成，采用“先粗后细”策略：

先在低分辨率下快速勾勒动态轮廓。
逐步放大并细化细节，最后精修至高清。
早期步骤数据量极小，后期才处理全分辨率，整体计算量大幅降低。

第三招：防漂移训练法 (Drift-Resistant Training)

针对长视频三大“翻车”模式（整体偏移、颜色失真、画质退化），团队设计了巧妙的训练策略：

主动模拟故障：在训练中故意给历史帧加入噪声、调整曝光、模糊处理，强迫模型学会“即使参考图有点烂，我也能画好”。
首帧锚定：始终保留第一帧作为“定海神针”，确保风格不跑偏。
相对位置编码：替代绝对位置编码，彻底消除画面周期性重复的“鬼畜”现象。

第四招：对抗式知识蒸馏 (Adversarial Knowledge Distillation)

为了让模型从“需要 50 步精修”变为"3 步出图”：

让 Helios 向自己训练好的“老师版”学习。
引入对抗训练机制，像一个学生既要模仿名师，又要骗过“图灵测试”评委。
结果是在保留高质量的同时，实现了超高速采样。

实测表现：碾压基线，媲美人类

在权威的 HeliosBench 基准测试（240 个用例）中，Helios 展现了统治级实力：

指标	Helios	Wan 2.1 (14B)	其他实时模型	评价
生成速度	19.5 FPS	0.33 FPS	< 10 FPS	快 59 倍，唯一真·实时
长视频质量	6.94 / 10	-	< 5.0	长视频稳定性 SOTA
人类盲测胜率	56% - 92%	-	-	对同类模型胜率超 66%
漂移控制	极低	高	中/高	无需额外修正策略