基础世界模型The Matrix：用于生成无限长度和实时的视频

387 0

在追求高质量、实时视频生成的过程中，研究人员和开发者们面临着一系列挑战。传统的视频生成模型往往因高昂的计算成本、有限的视频时长以及缺乏实时交互性而受到限制。特别是在需要长时间、高分辨率视频生成的应用场景中，如3A游戏开发，手动配置资产的成本极高，难以实现大规模的持续生产。此外，现有的高级模型，如Sora或Genie，虽然能够生成逼真的视频内容，但在实时性和长时间生成方面仍有不足，这限制了它们的实际应用范围。

The Matrix：无限视频生成的新范式

为了解决上述问题，阿里巴巴、香港大学和滑铁卢大学的研究团队联合开发了The Matrix——一种能够生成无限长度视频的基础世界模型。The Matrix不仅能够生成高质量的720p视频流，还能在保持帧级精度的同时实现实时交互，包括第一人称和第三人称视角。这一模型的独特之处在于其能够灵活地在游戏环境和现实世界环境中切换，生成的内容既包括城市景观，也涵盖自然地形，例如沙漠、草原、水域和城市景观等。

项目主页：https://thematrix1999.github.io

主要功能

无限视频生成：能够连续不断地生成视频，不受时间和内容的限制。
高质量渲染：提供3A级别的真实渲染效果，分辨率达到1280×720。
实时、帧级控制：以8-16 FPS的速度运行，提供实时、精确的帧级控制，适用于交互式应用。
领域泛化：即使在有限的监督数据下，也能实现对现实世界设置的强泛化。

主要特点

轻量级模型：模型参数为2.7B，相对较轻。
新颖的扩散技术：引入了Shift-Window Denoising Process Model (SwinDPM)，使得预训练的DiT模型能够无缝地进行平滑、连续、无限延长的视频创作。
GameData平台：自动捕获游戏内状态和对应的视频帧，显著降低标记成本和复杂性。

工作原理

The Matrix的核心技术基于视频扩散Transformer（DiT）模型，该模型通过“移位窗口去噪过程模型”（Swin-DPM）实现了对长视频序列的有效管理。Swin-DPM通过优化注意力机制，确保了视频生成过程中对每一帧的精确控制，从而支持无限长度的视频生成。此外，The Matrix还集成了一个交互模块，该模块可以根据用户输入（如键盘命令）动态调整生成的视频内容，提供了一种全新的交互方式。

视频DiT主干：使用3D变分自编码器（VAE）将视频帧编码成视频令牌，并通过注意力块进行处理。
模型组件：包括交互模块（处理用户意图并将其整合到视频令牌生成中）、SwinDPM（实现无限长度视频生成）和流一致性模型（SCM，加速采样以达到实时性能）。
训练过程：从预训练的视频DiT模型开始，通过三阶段过程进行微调：首先固定DiT模型参数训练交互模块，然后训练交互模块和DiT，最后优化SCM以加速推理至实时速度。

多功能性与适应性

The Matrix的一个显著特点是其无需额外训练即可从游戏环境推广到现实世界环境的能力。这意味着模型不仅可以用于生成游戏中的场景，还可以应用于自动驾驶模拟、虚拟现实体验等多个领域。例如，The Matrix可以模拟宝马X3在办公室环境中行驶的情景，即使这样的场景从未出现在训练数据中。

重要成果与应用前景

The Matrix的重要意义在于它能够有效降低生成交互模拟的成本，减少对手动环境配置的依赖。研究表明，The Matrix在多个场景中实现了帧级精度的运动控制，包括《赛博朋克2077》和《极限竞速：地平线5》等游戏中的复杂场景。模型的泛化能力非常强，即使在未见过的场景中（如室内驾驶）也能实现精准控制。

在视觉质量和控制精度方面，The Matrix在某些设置中达到了约28.98的峰值信噪比（Move-PSNR），并且在优化后能够以8-16 FPS的速度进行实时渲染。这使得The Matrix成为了一个高效的世界模拟器，具备无限视频生成、高质量渲染和实时交互的能力。