阿里通义团队推出图像生成新型框架In-Context LoRA：利用现有的DiT架构模型（Flux模型）的上下文生成能力，通过提示词生成连贯图像

381 0

随着深度学习技术的发展，图像生成领域取得了显著进展。DiT架构作为一种新兴方法，通过简单地将注意力机制应用于图像连接，实现了任务无关的图像生成。然而，即便投入大量计算资源，生成图像的质量仍有待提升。

阿里通义团队的研究贡献

针对上述挑战，阿里通义团队深入研究了DiT架构模型，发现这些模型本质上具备上下文生成能力，仅需轻微调整即可激发其潜力。团队通过一系列多样化任务的实验，验证了现有DiT架构文生图模型的有效性，证实无需额外调整即可实现上下文生成。

IC-LoRA：创新的图像生成解决方案

基于上述发现，阿里通义团队提出了In-Context LoRA（IC-LoRA），这是一种用于图像生成的新型框架。IC-LoRA旨在通过利用现有的DiT架构模型（Flux模型）的上下文生成能力，来简化和提高图像生成任务的质量和效率。它可以通过提示词基于 Flux 生成主题连贯的三连图、四连图，非常适合内容创作。不过，目前模型并未完全开放，只开源了训练配置和一些测试数据集。

项目主页：https://ali-vilab.github.io/In-Context-LoRA-Page
GitHub：https://github.com/ali-vilab/In-Context-LoRA
模型：https://huggingface.co/ali-vilab/In-Context-LoRA

阿里通义团队推出图像生成新型框架In-Context LoRA：利用现有的DiT架构模型（Flux模型）的上下文生成能力，通过提示词生成连贯图像

该方案的核心在于：

图像连接而非标记：直接处理图像而非标记，以更自然的方式捕捉图像间的联系。
多图联合标注：通过同时标注多张图像，增强模型对上下文的理解。
小规模数据集微调：采用少量样本（约20至100个）进行特定任务的LoRA调整，避免了大规模数据集带来的高昂成本。

主要功能：

IC-LoRA的主要功能是适应多样化的图像生成任务，同时保持对生成图像的高质量控制。它通过在不需要对原始DiT模型进行任何架构修改的情况下，仅通过调整训练数据来实现对模型的微调。

主要特点：

简单性：IC-LoRA的流程非常简单，不需要对原始DiT模型进行任何修改，只需要改变训练数据。
高保真度：生成的图像集具有更高的保真度，并且更符合提示的要求。
任务无关性：虽然在调整数据时是任务特定的，但框架和流程在架构上保持任务无关，可以适应广泛的任务。
数据和计算效率：使用小型数据集（20-100个样本）进行微调，而不是使用大型数据集进行全参数调整，大大减少了计算资源的需求。

成果与展望

IC-LoRA不仅保持了原有DiT模型的结构不变，还通过优化训练数据显著提升了生成图像的保真度和一致性。此外，尽管在数据准备阶段需要针对具体任务做适当调整，但整个框架的设计理念是任务无关的，为后续研究提供了灵活且强大的工具。

示例提示：

为了帮助理解如何根据阿里提供的规范生成多场景图像描述，以下是一个具体的示例：

图像描述示例：

[MOVIE-SHOTS] 在这部电影镜头中，[SCENE-1] <约翰>站在昏暗的房间中央，手中紧握着一把古老的钥匙，背景是一扇半开的木门；[SCENE-2] 转场到一片荒凉的沙漠，<玛丽>骑着一匹骆驼，远处可见几座摇摇欲坠的废墟；[SCENE-3] 最后，画面切换到一座灯火通明的城市，<汤姆>站在高楼顶端，俯瞰着繁忙的街道，表情凝重。

解释

前缀 [MOVIE-SHOTS]：表示这是一个电影镜头的描述。
整体总结：开头部分简要概述整个图像的内容。
场景标记 [SCENE-1]、[SCENE-2]、[SCENE-3]：用于分隔不同的场景描述。
角色命名：使用尖括号 < > 包裹角色名字，如 <约翰>、<玛丽>、<汤姆>。
连贯性：确保整个描述连贯，形成一句完整的句子。
长度限制：描述总长度不超过512个字。

官方示例：

Prompt: “This set of four images illustrates a young artist's creative process in a bright and inspiring studio; [IMAGE1] she stands before a large canvas, brush in hand, adding vibrant colors to a partially completed painting, [IMAGE2] she sits at a cluttered wooden table, sketching ideas in a notebook with various art supplies scattered around, [IMAGE3] she takes a moment to step back and observe her work, and [IMAGE4] she experiments with different textures by mixing paints directly on the palette, her focused expression showcasing her dedication to her craft.”