微软发布复现Sora的开源项目:新型多智能体框架Mora

来自理海大学和微软研究院的研究团队推出新型多智能体框架Mora,它是为了实现大规模的通用视频生成而设计的。Mora的设计灵感来自于OpenAI在2024年2月推出的Sora模型,Sora是一个能够将文本提示转换为详细视频的开创性模型,但在学术界由于其闭源性,限制了研究人员对其进行复制或扩展的能力。因此,Mora的目标是提供一个开放源码的替代方案,能够模拟Sora的视频生成能力。

Mora实现了文本到视频生成、文本+图像到视频生成、扩展生成视频、视频到视频编辑、连接视频和模拟数字世界等功能,目前支持生成1024*576分辨率的12秒视频。

例如,如果我们要生成一个描述未来城市的动画,我们可以给Mora一个描述这个场景的文本提示,它会通过其多智能体合作生成一个展示未来城市生活的视频。这个视频可能包含飞行汽车、高科技建筑和互动式公共空间等元素,Mora会根据文本描述的指导,创造出一个连贯且视觉上吸引人的视频序列。

主要功能和特点:

  • 多智能体协作:Mora通过多个高级视觉AI智能体的合作,实现类似于Sora的视频生成能力。
  • 多样化视频任务处理:Mora能够处理多种视频生成任务,包括文本到视频的生成、文本条件图像到视频的生成、视频扩展、视频到视频的编辑、视频连接以及模拟数字世界等。
  • 高质量视频输出:Mora能够生成高分辨率、时间上连贯的视频,从文本提示中创造出丰富的视觉内容。

工作原理:

Mora将视频生成分解为多个子任务,并为每个子任务分配一个专门的智能体。这些智能体包括文本增强智能体、文本到图像的生成智能体、图像到图像的生成智能体、图像到视频的生成智能体以及视频到视频的连接智能体。通过自动组织智能体循环和排列这些子任务,Mora可以完成各种视频生成任务。

0

评论0

没有账号?注册  忘记密码?