南洋理工大学、 香港科技大学和腾讯人工智能实验室的研究人员推出新型框架FreeTraj,它用于在视频扩散模型中实现无需调整参数的轨迹控制。简而言之,FreeTraj允许用户在生成视频时精确控制视频中对象的运动轨迹,而无需对模型进行额外的训练。FreeTraj在多个评价指标上优于现有的无需训练的轨迹控制方法,并且在用户研究中也获得了最高的评分,证明了其在轨迹对齐、视频文本对齐和视频质量方面的优越性。此外,FreeTraj的提出者还探讨了如何通过初始噪声来影响视频生成模型的动态表现,并提出了一些改进现有视频模型的潜在方向。
例如,你正在制作一部动画片,需要一只猫在屏幕上从左向右移动。使用FreeTraj,你可以通过定义一个简单的轨迹,让这只猫按照你想要的路径移动,而不必重新训练或调整模型参数。FreeTraj会处理所有技术细节,让你专注于创意和动画的叙事。
主要功能和特点:
- 无需训练的轨迹控制:FreeTraj通过修改噪声采样和注意力机制来实现对生成视频轨迹的控制,无需进行额外的训练。
- 灵活性:用户可以手动提供轨迹,或者使用大语言模型(LLM)轨迹规划器自动生成轨迹。
- 扩展性:FreeTraj可以扩展到更长和更大分辨率的视频生成中,同时保持可控的轨迹。
工作原理:
- 噪声构造指导:FreeTraj通过在噪声构造阶段引入目标轨迹,影响视频生成的动态内容。
- 注意力机制修改:通过设计不同的注意力掩码,FreeTraj在不同的注意力层中实施控制,以实现对目标对象运动的精确控制。
- 长视频和大视频生成:FreeTraj可以与长视频生成框架FreeNoise集成,丰富长视频中的运动轨迹,同时在生成高分辨率视频时减少对象重复出现的现象。
具体应用场景:
- 视频编辑和创作:FreeTraj可以用于视频编辑,让创作者在不改变原始视频内容的情况下,调整视频中对象的运动轨迹。
- 动画制作:在动画制作中,FreeTraj可以用来控制角色或物体的运动,使得动画制作更加灵活和高效。
- 游戏开发:在游戏开发中,FreeTraj可以用于生成具有动态轨迹的NPC或物体,提高游戏的真实性和互动性。
评论0