MIT和斯坦福大学的研究人员推出一种语言驱动的顺序草图生成方法SketchAgent,能够让用户通过动态、对话式的交互来创建、修改和细化草图。例如,你想要生成一个关于“蝴蝶”的草图。你可以给SketchAgent一个文本指令,比如“画一个蝴蝶”,然后它就能根据这个指令生成一个草图。如果你想要进一步编辑这个草图,比如给蝴蝶加上触须或者改变翅膀的颜色,你可以继续给出新的文本指令,SketchAgent会根据这些指令对草图进行相应的修改。
主要功能:
- 文本驱动的草图生成:根据用户提供的文本指令生成草图。
- 顺序草图编辑:允许用户通过顺序的文本指令对草图进行编辑和细化。
- 交互式草图协作:支持用户与AI系统协作完成草图,增强创意和沟通。
主要特点:
- 无需训练或微调:SketchAgent利用现成的多模态大型语言模型(LLMs),不需要额外的训练或微调。
- 直观的草图语言:通过上下文示例向模型介绍新的表示方法,使其能够使用基于字符串的动作来“绘制”草图。
- 动态顺序生成:通过逐步绘制每一笔来捕捉草图的动态和演变特性。
工作原理:
SketchAgent的工作原理基于以下几个步骤:
- 全局面部提取器:将参考图像和面部关键点编码到潜在空间中,生成富含低频信息的特征。
- 局部面部提取器:捕捉高频细节,并将其注入到变换器块中,增强模型保持细节特征的能力。
- 一致性训练策略:通过层次化训练策略,将预训练的视频生成模型转化为IPT2V模型,提高模型的泛化能力。
- 草图表示:将草图定义为一系列语义有意义的笔画,每个笔画由一系列坐标定义,这些坐标被处理成贝塞尔曲线并渲染到画布上。
具体应用场景:
- 设计和创意工作:设计师可以使用SketchAgent快速草拟设计概念,或者在设计过程中进行迭代修改。
- 教育和学习:学生可以通过与AI协作来学习如何绘制特定的图像,比如学习如何画一个复杂的机械部件。
- 娱乐和游戏:在游戏或娱乐应用中,用户可以与AI一起创造角色或场景。
- 辅助沟通:对于难以用语言表达的概念,用户可以通过草图来辅助沟通,比如在解释一个抽象概念时,通过草图来帮助对方理解。
评论0