新型视频生成框架Tora：基于DiT框架构建，专门用于生成受轨迹指导的视频内容

新技术8个月前发布小马良

398 0

阿里巴巴推出新型视频生成框架Tora，它基于DiT（Diffusion Transformer）框架构建，专门用于生成受轨迹指导的视频内容。简而言之，Tora能够根据文本、图像、轨迹或这些元素的组合来生成视频，这些视频不仅精确遵循给定的轨迹，而且有效地模拟了现实世界的物理动态。

项目主页：https://ali-videoai.github.io/tora_video
GitHub：https://github.com/ali-videoai/Tora

例如，你想要创造一个视频，里面有一只蝴蝶在花丛中飞舞。传统上，这需要复杂的动画制作技术或者大量的手动调整。但现在，有了Tora，你只需要提供一些基本信息，比如蝴蝶的起始位置、飞行路径和一些描述性的文字，Tora就能自动生成一个平滑、逼真的蝴蝶飞舞视频。

新型视频生成框架Tora：基于DiT框架构建，专门用于生成受轨迹指导的视频内容

主要功能：

生成受轨迹指导的视频内容。
精确控制视频中物体的运动，模拟现实世界的物理动态。

主要特点：

轨迹导向：Tora是首个将轨迹条件与文本、视觉条件结合用于视频生成的DiT框架。
高保真度：在生成视频时，能够保持高运动保真度和物理世界的运动模拟。
可扩展性：设计上与DiT的可扩展性相一致，允许对视频内容的动态进行精确控制，支持不同的时长、宽高比和分辨率。

工作原理：

轨迹提取器（TE）：将任意轨迹编码成层次化的空间时间运动补丁，使用3D视频压缩网络。
运动引导融合器（MGF）：将运动补丁集成到DiT块中，生成一致性视频，遵循轨迹。
空间时间DiT：结合了空间和时间的DiT块，处理可变长度的视频序列。

新型视频生成框架Tora：基于DiT框架构建，专门用于生成受轨迹指导的视频内容

具体应用场景：

动画制作：在电影、电视或视频游戏的动画制作中生成逼真的动态场景。
虚拟现实：为虚拟现实环境创造动态内容，提供沉浸式体验。
广告和营销：制作吸引人的视频广告，根据文本描述或图像自动生成视频内容。
教育和培训：创建教育内容，如模拟实验或历史事件的动态再现。

新技术 # Tora # 视频生成

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型视频深度估计方法DepthCrafter：为开放世界（即不受限制、多样化的现实世界场景）的视频生成时间上连贯、细节丰富的深度序列

新型视频深度估计方法DepthCrafter：为开放世界（即不受限制、多样化的现实世界场景）的视频生成时间上连贯、细节丰富的深度序列

新技术 # DepthCrafter # 视频深度估计

7个月前

05440

运动潜在一致性模型MotionLCM：能够实时控制人体动作的生成

运动潜在一致性模型MotionLCM：能够实时控制人体动作的生成

新技术 # MotionLCM # 运动潜在一致性模型

12个月前

04480

高度灵活的组合式时尚图像生成模型FashionComposer

高度灵活的组合式时尚图像生成模型FashionComposer

新技术 # FashionComposer # 虚拟试穿

4个月前

01560

Meta发布世界模型早期版本V-JEPA：无需人工标注或指导，自主学习视频中的视觉信息

Meta发布世界模型早期版本V-JEPA：无需人工标注或指导，自主学习视频中的视觉信息

新技术 # Meta # V-JEPA # 世界模型

1年前

06420

暂无评论

none

暂无评论...