基于DiT模型的多领域程序化序列生成框架MakeAnything：根据文本描述或图像生成分步骤的教程

图像模型1个月前发布小马良

67 0

新加坡国立大学的研究团队推出 MakeAnything，这是一个基于DiT模型的多领域程序化序列生成框架，能够根据文本描述或图像生成分步骤的教程，也就是生成一致性图片序列。

GitHub：https://github.com/showlab/MakeAnything
模型：https://huggingface.co/showlab/makeanything
Demo：MakeAnything|MakeAnything-AsymmertricLoRA

该框架旨在解决生成复杂多步骤程序化序列的三个关键挑战：多任务程序化数据的稀缺性、步骤之间的逻辑连贯性和视觉一致性，以及跨多个领域的泛化能力。MakeAnything 通过引入一个涵盖 21 个任务、超过 24,000 个程序化序列的多领域数据集，并结合新颖的技术设计，实现了高质量的程序化序列生成。

基于DiT模型的多领域程序化序列生成框架MakeAnything：根据文本描述或图像生成分步骤的教程

例如，用户可以输入“如何用金色画笔画一个女孩的肖像？”或上传一幅画作的图片，MakeAnything 能够生成详细的分步骤绘画教程，包括从草图到最终成品的每一步操作。

主要功能

文本到程序化序列生成：根据文本描述生成分步骤的教程，涵盖绘画、手工制作、烹饪等多种领域。
图像到程序化序列生成：通过上传静态图片，反向生成该图片的创作过程。
跨领域泛化：支持多种领域（如绘画、手工、烹饪等）的程序化序列生成，具有良好的泛化能力。
可控生成：通过条件输入（如文本或图像）控制生成过程，确保生成结果与输入条件高度一致。

主要特点

多领域数据集：提出了一个涵盖 21 个任务、超过 24,000 个程序化序列的多领域数据集，显著推动了程序化理解与生成的研究。
不对称低秩适配（Asymmetric LoRA）：通过冻结编码器参数并自适应调整解码器层，平衡了泛化能力和任务特定性能。
ReCraft 模型：通过时空一致性约束，将静态图像分解为合理的创作序列，支持图像条件的程序化生成。
高质量生成：结合高质量数据集和先进的技术设计，生成的程序化序列在逻辑连贯性和视觉一致性方面表现出色。

工作原理

扩散变换器（DiT）：作为基础模型，DiT 通过逐步去噪生成高质量的图像序列。它处理两种类型的 token：噪声图像 token 和文本条件 token，通过多模态注意力机制实现双向注意力。
不对称 LoRA：通过联合训练共享的中心矩阵和多个任务特定矩阵，平衡了泛化能力和任务特定性能。这种方法在多任务学习中表现出色。
ReCraft 模型：通过将目标图像的干净潜在 token 注入去噪过程中，指导中间帧的去噪，从而实现从静态图像生成合理的创作序列。
条件流匹配损失：通过最小化模型生成的条件向量场与真实数据分布之间的差异，优化生成过程。

基于DiT模型的多领域程序化序列生成框架MakeAnything：根据文本描述或图像生成分步骤的教程

具体应用场景

教育与培训：为学生提供绘画、手工制作、烹饪等领域的分步骤教程，帮助他们更好地理解和学习创作过程。
创意设计：为设计师提供灵感，生成从概念到成品的创作步骤，支持绘画、图标设计、3D 建模等多种创意领域。
反向工程：通过上传成品图片，反向生成创作过程，帮助用户理解和重建复杂的创作步骤。
在线教程生成：为在线教育平台自动生成高质量的教程内容，提升用户体验。

图像模型 # DiT模型 # MakeAnything

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

新型图像抠图方法SEMat：能够在复杂的自然场景中实现更精确的前景对象抠图

新型图像抠图方法SEMat：能够在复杂的自然场景中实现更精确的前景对象抠图

图像模型 # SEMat # 图像抠图

2个月前

02570

新型多层透明图像生成方法ART：通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

新型多层透明图像生成方法ART：通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

图像模型 # ART # 透明图像

1个月前

0510

新型生成模型OmniFlow：用于处理任何到任何（any-to-any）的多模态生成任务，例如文本到图像、文本到音频以及音频到图像的合成

新型生成模型OmniFlow：用于处理任何到任何（any-to-any）的多模态生成任务，例如文本到图像、文本到音频以及音频到图像的合成

图像模型 # OmniFlow # 多模态生成

2个月前

01440

专注于精确角色细节转录的线稿上色模型MangaNinja

专注于精确角色细节转录的线稿上色模型MangaNinja

图像模型 # MangaNinja # 线稿上色模型

2个月前

01580

暂无评论

none

暂无评论...