阿里巴巴推出新型视频生成框架Tora,它基于DiT(Diffusion Transformer)框架构建,专门用于生成受轨迹指导的视频内容。简而言之,Tora能够根据文本、图像、轨迹或这些元素的组合来生成视频,这些视频不仅精确遵循给定的轨迹,而且有效地模拟了现实世界的物理动态。
例如,你想要创造一个视频,里面有一只蝴蝶在花丛中飞舞。传统上,这需要复杂的动画制作技术或者大量的手动调整。但现在,有了Tora,你只需要提供一些基本信息,比如蝴蝶的起始位置、飞行路径和一些描述性的文字,Tora就能自动生成一个平滑、逼真的蝴蝶飞舞视频。
主要功能:
- 生成受轨迹指导的视频内容。
- 精确控制视频中物体的运动,模拟现实世界的物理动态。
主要特点:
- 轨迹导向:Tora是首个将轨迹条件与文本、视觉条件结合用于视频生成的DiT框架。
- 高保真度:在生成视频时,能够保持高运动保真度和物理世界的运动模拟。
- 可扩展性:设计上与DiT的可扩展性相一致,允许对视频内容的动态进行精确控制,支持不同的时长、宽高比和分辨率。
工作原理:
- 轨迹提取器(TE):将任意轨迹编码成层次化的空间时间运动补丁,使用3D视频压缩网络。
- 运动引导融合器(MGF):将运动补丁集成到DiT块中,生成一致性视频,遵循轨迹。
- 空间时间DiT:结合了空间和时间的DiT块,处理可变长度的视频序列。
具体应用场景:
- 动画制作:在电影、电视或视频游戏的动画制作中生成逼真的动态场景。
- 虚拟现实:为虚拟现实环境创造动态内容,提供沉浸式体验。
- 广告和营销:制作吸引人的视频广告,根据文本描述或图像自动生成视频内容。
- 教育和培训:创建教育内容,如模拟实验或历史事件的动态再现。
评论0