多代理协作框架GENMAC：实现复杂的文本到视频生成，特别是针对组合性文本提示的生成

新技术1年前发布小马良

300 0

香港大学、清华大学和微软研究院的研究人员推出多代理协作框架GENMAC，旨在实现复杂的文本到视频生成，特别是针对组合性文本提示的生成。传统的文本到视频生成模型在处理复杂场景时常常面临挑战，例如多个对象的属性绑定、时间动态和对象之间的交互。GENMAC通过将复杂任务分解为简单的子任务，并利用多个专门化的代理进行协作，来解决这些问题。

项目主页：https://karine-h.github.io/GenMAC
GitHub：https://github.com/Karine-Huang/GenMAC

例如，用户输入的文本提示是“在月球上，一辆汽车从右向左行驶”。GENMAC的工作流程会首先设计出一个结构化的布局，确保汽车在视频中正确移动，并且在每一帧中保持一致的空间关系。通过多次迭代，系统能够逐步调整生成的视频，以确保它符合文本提示的要求。

主要功能和特点

多代理协作：GENMAC利用多个专门化的代理来处理不同的任务，例如验证、建议、修正和输出结构化信息。
迭代生成：该框架采用迭代的方式进行生成和修正，允许在每一轮中对生成的视频进行逐步改进。
任务分解：复杂的生成任务被分解为多个简单的子任务，每个代理负责一个特定的任务，从而提高了生成的准确性和效率。
自适应路由机制：GENMAC设计了一种自适应路由机制，根据当前生成的视频和文本提示的对齐情况，动态选择合适的修正代理。

工作原理

GENMAC的工作流程分为三个主要阶段：

设计阶段（DESIGN）：根据文本提示生成一个结构化的布局，确定视频中对象的布局和空间关系。
生成阶段（GENERATION）：利用文本提示和布局信息生成视频，使用现有的视频生成模型进行合成。
重设计阶段（REDESIGN）：验证生成的视频与文本提示之间的对齐情况，提出修正建议，并调整设计以进行下一轮生成。

在重设计阶段，GENMAC将任务分解为四个子任务：验证、建议、修正和输出结构化信息。每个子任务由不同的代理执行，确保生成过程的高效性和准确性。

新技术 # GENMAC # 文生视频

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型视频生成技术“CVD（协作视频扩散）”：生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频

新型视频生成技术“CVD（协作视频扩散）”：生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频

新技术 # CVD # 协作视频扩散 # 视频生成

2年前

01,0290

新型视觉生成模型RAR：在通过自回归建模提高图像生成任务的性能，同时保持与语言模型框架的完全兼容性

新型视觉生成模型RAR：在通过自回归建模提高图像生成任务的性能，同时保持与语言模型框架的完全兼容性

新技术 # RAR模型 # 随机自回归视觉生成

1年前

03340

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

文生图模型SnapGen：能够在移动平台上生成高分辨率和高品质的图像

新技术 # SnapGen # 文生图模型

1年前

03260

ToDo：为了提高高分辨率图像生成的效率而设计

ToDo：为了提高高分辨率图像生成的效率而设计

新技术 # ToDo # 扩散模型

2年前

08080

暂无评论

none

暂无评论...