OpenAI视频模型Sora技术报告：构建虚拟世界的模拟器Sora

395 0

我们专注于研究如何在大规模视频数据上训练生成模型。具体来说，我们针对不同时长、分辨率和宽高比的视频及图像，联合训练了基于文本条件的扩散模型。为了实现这一目标，我们运用了一种能够处理视频和图像潜在编码时空片段的Transformer架构。我们的最大型号模型Sora，具备生成一分钟高清视频的能力。研究表明，通过不断增大视频生成模型规模，是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。

视频展示请查看官方技术报告

本技术报告主要介绍了两方面内容：

我们如何将各种类型的视觉数据转化为统一的表示形式，从而实现生成模型的大规模训练；

对 Sora 模型能力和局限性的定性评价。报告中没有包含模型和实施的详细信息。

先前大量的研究工作已采用多种方法探究视频数据的生成建模技术，这些方法包括循环神经网络，生成对抗网络，自回归Transformer以及扩散模型。这些研究通常关注于特定类别的视觉数据，较短的视频，或是固定尺寸的视频。与此不同，Sora 是一种对视觉数据进行广义建模的模型，它能够生成各种时长、宽高比和分辨率的视频和图像，最长可达一分钟的高清视频。

视觉数据的创新转化：补片技术

受到大语言模型（LLM）在处理互联网规模数据、培养全能技能方面成功经验的启发，我们探索了如何将类似的优势应用于视觉数据的生成模型。大语言模型通过使用 tokens —— 一种统一处理代码、数学及多种自然语言的高效方式 —— 实现了模态间的无缝转换。在本研究中，我们引入了视觉领域的对应物：视觉补片（patches）。先前的研究已经证明，补片是一种高效的视觉数据表现形式，它们能极大地提升生成模型处理多样化视频和图像数据的能力。

从总体框架上看，我们通过先将视频数据压缩到低维度潜在空间，再将其分解成时空补片，从而实现视频到补片的转化。

视频压缩网络

我们开发了一种降维技术，该技术能够处理原始视频数据，并生成在时间和空间上都进行了压缩的潜在表征。Sora 在这种压缩的潜在空间中接受训练，并能够生成新的视频内容。此外，我们还开发了一个解码器，它能够将这些潜在表征还原为像素级的视频图像，从而实现从潜在空间到实际视频帧的映射。

时空补片技术

对于给定的压缩输入视频，我们能够提取出一系列的时空补片，这些补片在模型中扮演着类似于 Transformer Tokens 的角色。此方法对于图像也同样适用，因为单帧图像可视为时长为零的特殊视频。采用基于补片的表现形式，Sora 能够适应不同分辨率、持续时间及宽高比的视频和图像。在生成新视频内容时，我们可以通过将这些随机初始化的补片按照需要的大小排列成网格，我们可以灵活地控制所生成视频的尺寸大小。

视频生成的 Transformer 扩展技术

Sora是一种扩散模型，它能够接受带有噪声的图像块（及条件信息如文本提示）作为输入，并被训练以预测出原始的“清晰”图像块。值得注意的是，Sora采用了扩散Transformer架构，Transformer架构已在多个领域，包括但不限于语言模型构建、计算机视觉处理以及图像生成等方面，证明了自身强大的规模化优势。

在本项工作中，我们证实扩散Transformer同样能够有效扩展至视频模型，并展现出良好的规模化效果。接下来我们将展示一组随训练进程推进而生成的视频样本比较，这些样本均基于固定的随机种子和输入条件。从中可以明显观察到，随着训练计算资源的增加，所生成视频样本的质量有显著提高。

适应性时长、分辨率及宽高比处理

过去在图像和视频生成领域的传统做法常常将视频统一调整为固定的标准尺寸，如设定为4秒钟、分辨率为256x256的视频片段。而我们发现，直接在视频的原始尺寸上进行训练能带来多重好处。

灵活的采样能力

Sora 能够生成各种尺寸的视频，包括宽屏的 1920x1080p、竖屏的 1080x1920 以及介于两者之间的任何格式。这意味着Sora可以根据不同设备的原生动态宽高比直接创造出适应性的内容。此外，它还允许我们在生成全分辨率内容之前，先以较低分辨率快速预览和构建内容原型，所有这些都能通过同一模型实现。

构图与布局的优化

我们通过实证发现，在原始宽高比上训练视频可以显著提升画面的构图和布局效果。我们将 Sora 与另一个训练模型进行了对比，后者将所有训练视频裁剪为正方形，这是训练生成模型时的常规做法。经过正方形裁剪训练的模型（左）有时会生成只显示部分主体的视频。相比之下，Sora生成的视频（右）在构图方面有所改进。

语言理解能力

训练文本到视频的生成系统需要大量的带有相应文本描述的视频数据。我们将DALL·E 3中引入的重新标注技术应用于视频。首先，我们训练了一个能够生成详细描述的模型，然后利用这个模型为训练集里的所有视频创建文字说明。我们发现，使用描述性强的视频说明进行训练，不仅能提高文字的准确度，还能显著提升视频的整体质量。

与DALL·E 3类似，我们也利用GPT技术将用户的简短提示转化为更长、更详细的描述性说明，然后将其发送到视频模型。这样就使得Sora能够根据用户提示精确地生成高质量的视频内容。

图片和视频的提示功能

上述所有结果以及我们在主页上展示的样本均为文本到视频的案例。但Sora还可以接受其他类型的输入，比如现有的图像或视频。这一特性使Sora能够执行一系列广泛的图像和视频编辑任务，例如创建完美循环的视频、为静态图像添加动画效果、在时间轴上向前或向后延伸视频等。

让 DALL·E 图片动起来

Sora具备根据提供的图像和提示生成视频的能力。以下我们展示了基于DALL·E 2和DALL·E 3生成图像所制作的示例视频。

视频时间延伸

Sora同样有能力在时间轴上向前或向后延长视频。以下展示的四个视频均是从一段生成视频的片段开始向后延伸的案例。因此，这四个视频的开头各不相同，但最终都导向了相同的结尾。

我们可以使用这种方法在时间轴上向前和向后延长视频，从而制作出无缝的无限循环视频。

视频到视频编辑技术

扩散模型已经开启了大量基于文本提示编辑图像和视频的方法。接下来，我们应用其中一种方法——SDEdit到Sora中。这一技术使得Sora能够在零样本情况下对输入视频的风格和环境进行改变。

视频之间的流畅过渡

我们还可以利用 Sora 把两个风格迥异的视频平滑连接起来，使它们之间能够自然过渡，仿实现无缝转换效果。在下方的示例中，你会看到，中间的视频巧妙地融合了左右两侧视频的元素。

图像生成能力

Sora还具有生成图像的能力。我们通过在空间网格中按时间顺序排列高斯噪声块来实现这一点，时间跨度为一帧。该模型能够生成不同尺寸的图像，最高分辨率可达2048x2048。

涌现的模拟能力

我们发现，当视频模型在大规模训练时会展示出一系列有趣的涌现能力。这些能力使Sora能够模拟现实世界中的某些人物、动物和环境方面的特性。这些特性在没有任何明确的针对3D、物体等的归纳偏差的情况下自然出现——它们纯粹是规模效应的结果。

三维空间的连贯性： Sora 能生成带有动态视角变化的视频。随着摄像机移动和旋转，人物及场景元素在三维空间中保持一致的运动状态。

长期连贯性和对象持久性： 在生成长视频时，保持时间上的连续性一直是个挑战。我们发现Sora经常（尽管不总是）能够有效地模拟短期和长期依赖关系。例如，即使人物、动物或物体被遮挡或离开画面，我们的模型仍能保持其存在；同样地，它可以在同一视频样本中生成同一个角色的多个镜头，并在整个视频中保持其外观不变。

与世界的互动：Sora 有时能模拟出简单地影响世界状态的行为。例如，画家可以在画布上留下新的笔触，这些笔触会随时间持续存在，或者一个人可以吃汉堡并留下咬痕。

模拟数字世界：Sora 还能模拟数字化过程，如电子游戏。它能在控制 Minecraft 游戏角色进行基本操作的同时，高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示，即可激发这些能力的展现。

这些能力表明，继续提升视频模型的规模是通往高度仿真模拟器发展的一条有前景的道路，这类模拟器不仅能够模拟物理世界，还能模拟其中生活着的对象、动物和人们，以及数字化的世界。