自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

507 0

来自Picsart AI研究部门、得克萨斯大学奥斯汀分校、佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究团队推出先进的自回归技术 StreamingT2V，能够创建具有丰富运动动力学的长视频，不会出现停滞现象。它确保视频中的时间一致性，与描述性文本紧密对应，并保持高帧级图像质量。

项目主页

GitHub

团队的演示包括成功创建的时长为 2 分钟、包含多达 1200 帧的视频示例，还可以扩展到更长的时长。重要的是，StreamingT2V 的有效性并不受所使用的特定 Text2Video 模型的限制，这表明基础模型的改进可以产生更高质量的视频。

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

例如，你只需要输入一段描述性的文本，比如“一只骆驼在雪地上休息”，StreamingT2V就能生成一个长达两分钟的视频，展示骆驼在雪地中的各种动作，而且视频画面流畅，没有突兀的剪辑或停滞。

主要功能和特点：

长视频生成： StreamingT2V能够生成包含丰富动态变化的长视频，而不是仅限于短片段。

连贯性： 视频在帧之间保持时间上的连贯性，避免了生硬的剪辑或场景切换。

高质量图像： 即使在视频的帧数非常多时，StreamingT2V也能保持高帧级图像质量。

记忆模块： 它使用了短期和长期记忆模块来保持视频内容的一致性，即使在很长的视频生成过程中也不会丢失初始场景的细节。

工作原理：

StreamingT2V的工作原理包括几个关键部分：

条件注意模块（CAM）： 它通过注意力机制利用前一个视频块的特征来生成新的视频帧，确保视频块之间的平滑过渡。

外观保持模块（APM）： 它从第一个视频块中提取高层次的场景和对象特征，确保在整个视频生成过程中保持对象和场景特征的一致性。

随机混合方法： 它允许在不产生块间不一致性的情况下，自回归地增强长视频的质量。

实验结果显示，StreamingT2V能够生成大量动态内容。相比之下，所有竞争的图像到视频方法在应用自回归方式时都容易遇到视频停滞的问题。因此，我们提出StreamingT2V，这是一种高质量、无缝衔接的文本到长视频生成器，它在一致性和动态性方面均优于竞争对手。

具体应用场景：

广告制作： 广告通常需要讲述一个故事，StreamingT2V可以生成具有丰富动态和情感的长视频广告。

社交媒体内容创作： 社交媒体上的故事功能需要吸引人的视频内容，StreamingT2V可以帮助内容创作者快速生成有趣的长视频。

电影和视频游戏预告片： 制作预告片需要大量的创意和视觉效果，StreamingT2V可以生成具有专业质量的动态视频片段。

StreamingT2V是一个强大的工具，它通过结合先进的自回归技术和记忆模块，能够从文本中生成长时间、高质量且连贯的视频内容。

新技术 # StreamingT2V # 自回归技术

文章版权归作者所有，未经允许请勿转载。

SPRIGHT T2I：改进文生图模型在生成图像时保持空间一致性的能力

新技术 # SPRIGHT T2I # 文生图模型

1年前

07610

ViewExtrapolator：于在新视角合成领域中进行新视角外推

新技术 # ViewExtrapolator

5个月前

01820

FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

新技术 # FlexGen

6个月前

02870

新型视频超分辨率（VSR）技术EvTexture：通过挖掘事件数据中的高频细节，从而提高视频的分辨率和质量

新技术 # EvTexture # VSR # 视频超分辨率

10个月前

05590

暂无评论

暂无评论...

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

3D到3D生成方法ThemeStation：根据少量的示例生成具有一致主题的3D资源

文本到3D生成模型VP3D：通过利用2D视觉提示来增强3D模型的视觉真实感

相关文章

SPRIGHT T2I：改进文生图模型在生成图像时保持空间一致性的能力

ViewExtrapolator：于在新视角合成领域中进行新视角外推

FlexGen框架：能够根据单一视角的图像、文本提示或两者的结合来灵活生成可控制且一致的多视图图像

新型视频超分辨率（VSR）技术EvTexture：通过挖掘事件数据中的高频细节，从而提高视频的分辨率和质量

暂无评论

文章

新Canva全面拥抱AI：新增图像生成、交互式编程与电子表格功能

新OpenAI即将推出GPT-4o的升级版GPT-4.1：更智能、更小巧

新OpenAI宣布将于4月30日停用GPT-4

新爱尔兰数据监管机构调查X：欧洲用户数据是否被滥用于训练Grok？

新伊利亚·苏茨凯维的新AI公司SSI正与谷歌云展开深度合作

新阿里云无影AgentBay发布，5分钟搭建高并发Agent环境

Open ASR 排行榜

Google AI Studio

朱雀大模型检测

Higgsfield AI

新DroidRun

新MiniMax-MCP

自回归技术StreamingT2V：能够创建具有丰富运动动力学的长视频，不会出现停滞现象

3D到3D生成方法ThemeStation：根据少量的示例生成具有一致主题的3D资源

文本到3D生成模型VP3D：通过利用2D视觉提示来增强3D模型的视觉真实感

相关文章

文章

标签云

网址

Open ASR 排行榜

Google AI Studio

朱雀大模型检测

Higgsfield AI

新DroidRun

新MiniMax-MCP