OpenAI公开AI视频生成模型Sora:可创建长达 60 秒的视频

OpenAI公开了AI视频生成(文生视频)模型Sora,它可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动和具有生动情感的多个角色。

我们正在教授人工智能如何理解和模拟运动中的物理世界,目标是训练出能够协助人们解决现实世界交互问题的模型。

介绍我们的文生视频频模型 Sora,Sora 不仅能够生成长达一分钟的视频,而且在保持视觉质量的同时,还能严格遵循用户的提示。

今天,我们将向红队成员开放 Sora,以评估其在潜在危害或风险的关键领域的表现。此外,我们还将邀请一些视觉艺术家、设计师和电影制作人试用 Sora,以获取有关如何进一步完善模型的反馈,从而使其对创意专业人士最具帮助。

我们分享早期的研究进展,旨在与 OpenAI 之外的人合作并获取反馈,同时让公众了解即将到来的 AI 功能。

Sora 具备生成复杂场景的能力,这些场景中包含多个角色、特定类型的运动以及精确的主题和背景细节。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在物理世界中的存在方式。

由于模型对语言有深入的理解,因此它能够准确地解释提示并生成具有生动情感的角色。此外,Sora 还可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。

不过,当前的模型仍存在一些弱点。例如,在模拟复杂的物理过程时可能不够精确,可能出现因果关系逻辑不连贯的情况,如角色咬饼干后饼干上未留下咬痕的现象。另外,模型有时会对空间方位(如左右方向)产生混淆,且在处理时间连续性表达,如遵循特定摄像机移动轨迹方面存在挑战。

为了确保安全,在将 Sora 应用于 OpenAI 产品之前,我们采取了一系列严谨的安全措施。我们正携手红队专家团队,他们专长于对抗虚假信息、仇恨内容等领域,共同对模型进行严格对抗性测试。

同时,我们还在开发工具以便检测误导性内容,并计划在未来的应用中嵌入 C2PA 元数据标准以追踪生成视频的来源。

除了研发新技术为部署做准备外,我们也借鉴了 DALL·E 3 中的成功安全策略,将其应用于 Sora。一旦整合到 OpenAI 的产品中,文本分类器会自动筛查并拒绝违反使用政策的文本输入,例如含有极端暴力、色情内容、仇恨图像、名人肖像或侵犯他人知识产权的请求。同时,我们还建立了一个强大的图像分类器系统,对生成视频的所有帧逐一进行审查,确保遵守使用政策。

我们将与全球各地的政策制定者、教育工作者和艺术家紧密合作,了解他们的担忧,并探索这项新技术的积极应用场景。尽管我们已经进行了广泛的研究和测试,但仍无法预测人们将如何使用我们的技术带来益处,或如何滥用它。因此,我们相信从实际使用中不断学习和改进是创建和发布越来越安全的 AI 系统的关键。

Sora 是一个基于扩散模型的创新,它能从看似随机噪声的初始视频开始,通过多步骤去噪过程逐渐生成清晰视频。Sora 能一次性生成完整的视频片段,也能根据需要扩展视频长度,成功解决了即使对象暂时离开画面也要保持前后一致性的问题。

如同 GPT 模型一样,Sora 采用 transformer 架构,实现了卓越的拓展能力。视频和图像被拆解成一系列称为补丁的数据单元,每个补丁相当于 GPT 中的令牌。通过统一数据表示方式,我们能够在更加广泛的视觉数据集上训练扩散转换器,涵盖不同时间段、分辨率和纵横比的素材。

Sora 建立在 DALL·E 和 GPT 研究成果的基础之上,并引入了来自 DALL·E 3 的重新描述技术,使得模型能够根据高度详细的标题训练数据精确地响应文本指导生成视频。

Sora 不仅可以从文本描述自动生成视频,还可以将静态图片转化为生动的视频内容,真实还原图像原有特点与细节。同样,该模型可以扩展现有视频或填充缺失的帧。更多关于这项技术的研究细节将在后续发布的技术论文中详尽阐述。

Sora 是我们朝着理解和模拟真实世界的 AI 模型迈进的重要一步,我们深信这种能力对于实现通用人工智能(AGI)具有里程碑式的意义。

0

评论0

没有账号?注册  忘记密码?