新型视频生成框架Tora:基于DiT框架构建,专门用于生成受轨迹指导的视频内容

阿里巴巴推出新型视频生成框架Tora,它基于DiT(Diffusion Transformer)框架构建,专门用于生成受轨迹指导的视频内容。简而言之,Tora能够根据文本、图像、轨迹或这些元素的组合来生成视频,这些视频不仅精确遵循给定的轨迹,而且有效地模拟了现实世界的物理动态。

例如,你想要创造一个视频,里面有一只蝴蝶在花丛中飞舞。传统上,这需要复杂的动画制作技术或者大量的手动调整。但现在,有了Tora,你只需要提供一些基本信息,比如蝴蝶的起始位置、飞行路径和一些描述性的文字,Tora就能自动生成一个平滑、逼真的蝴蝶飞舞视频。

主要功能:

  • 生成受轨迹指导的视频内容。
  • 精确控制视频中物体的运动,模拟现实世界的物理动态。

主要特点:

  • 轨迹导向:Tora是首个将轨迹条件与文本、视觉条件结合用于视频生成的DiT框架。
  • 高保真度:在生成视频时,能够保持高运动保真度和物理世界的运动模拟。
  • 可扩展性:设计上与DiT的可扩展性相一致,允许对视频内容的动态进行精确控制,支持不同的时长、宽高比和分辨率。

工作原理:

  1. 轨迹提取器(TE):将任意轨迹编码成层次化的空间时间运动补丁,使用3D视频压缩网络。
  2. 运动引导融合器(MGF):将运动补丁集成到DiT块中,生成一致性视频,遵循轨迹。
  3. 空间时间DiT:结合了空间和时间的DiT块,处理可变长度的视频序列。

具体应用场景:

  • 动画制作:在电影、电视或视频游戏的动画制作中生成逼真的动态场景。
  • 虚拟现实:为虚拟现实环境创造动态内容,提供沉浸式体验。
  • 广告和营销:制作吸引人的视频广告,根据文本描述或图像自动生成视频内容。
  • 教育和培训:创建教育内容,如模拟实验或历史事件的动态再现。
0

评论0

没有账号?注册  忘记密码?