Qwen-Image-EliGen

236 00

Qwen-Image-EliGen是基于 Qwen-Image 训练的精确分区控制模型,模型结构为 LoRA,可以通过输入每个实体的文本和区域条件(蒙版图)来控制每个实体的位置和形状。

作者
阿里魔塔团队
基础模型
Qwen-Image
 Qwen-Image-EliGen

阿里魔塔团队开源了 Qwen-Image-EliGen —— 一个基于 Qwen-Image 的实体级可控图像生成模型。该模型通过引入区域注意力机制(Regional Attention),实现了对图像中多个语义实体的位置、形状与语义的精细化控制,同时保持生成结果的整体协调性与视觉质量。

 Qwen-Image-EliGen

这一进展为需要精确布局控制的文生图任务(如广告设计、场景合成、UI生成等)提供了更灵活、更可控的技术路径。

 Qwen-Image-EliGen

什么是实体级控制?为什么重要?

传统的文生图模型(如 Stable Diffusion、Qwen-VL)依赖全局文本提示生成图像,虽然能生成高质量内容,但难以精确控制物体的位置、大小或局部结构。用户往往需要反复调整提示词或依赖后期编辑来达到预期效果。

 Qwen-Image-EliGen

而 实体级控制(Entity-level Control) 的目标是:

让用户能够分别定义图像中每个对象的“说什么”(语义)和“在哪、长什么样”(空间布局),实现“所想即所得”。

Qwen-Image-EliGen 正是为此设计:它允许用户为每个实体提供独立的文本描述和区域条件(如蒙版图),模型据此生成符合语义与空间约束的图像。

新型框架 EliGen:用于实现图像生成中的实体级控制

核心技术:区域注意力机制(Regional Attention)

EliGen 的核心技术在于其引入的 区域注意力机制,该机制在扩散模型的交叉注意力层中实现细粒度控制:

工作原理简述:

  1. 输入双条件
    • 每个实体的文本描述(例如:“一只棕色的狗”)
    • 对应的区域条件(如二值蒙版图,标明该实体应出现的位置和大致形状)
  2. 注意力引导
    在去噪过程中,模型通过区域注意力机制,将特定文本描述的语义信息绑定到对应的空间区域,确保“狗”的文本只影响“狗”的蒙版区域,而不干扰背景或其他对象。
  3. 整体一致性保持
    所有实体并行生成,并通过共享的上下文建模机制保证光影、视角和风格的一致性,避免拼贴感。

这种设计使得模型既能实现局部精确控制,又能维持全局自然融合。

模型架构与训练细节

项目说明
基础模型Qwen-Image(通义千问多模态系列)
微调方式LoRA,轻量高效,易于部署与组合
模型类型精确分区控制模型,支持多实体、多区域输入
训练框架基于 DiffSynth-Studio 构建
训练数据DiffSynth-Studio/EliGenTrainSet,包含带区域标注的图文对数据集

✅ 由于采用 LoRA 结构,Qwen-Image-EliGen 可直接与原始 Qwen-Image 模型结合使用,无需修改主干网络,支持即插即用。

典型应用场景

EliGen 特别适用于以下需要语义+布局双重控制的任务:

  • 广告创意生成:固定品牌 Logo 位置,动态替换产品外观
  • 室内设计布局:按用户草图放置家具,保持风格统一
  • 角色场景合成:控制人物姿态与位置,生成连贯剧情图像
  • UI/UX 原型生成:根据布局框生成符合语义的界面元素

相比传统 ControlNet 等基于边缘或深度图的控制方式,EliGen 提供了更高层次的语义化区域控制能力,更适合复杂多对象场景。

相关图书

Qwen-Image Realism

Qwen-Image Realism

Qwen-Image Realism LoRA v1.1 是一次聚焦“真实感”的精准升级。它不追求参数膨胀或复杂架构,而是通过高质量数据与精细微调,在面部、色彩、光影和多样性四个关键维度实现可感知的提升。
PJ0 QwenImage Realistic FP8

PJ0 QwenImage Realistic FP8

PJ0 QwenImage Realistic FP8 是一次针对性明确的优化迭代,重点提升真实感与细节表现力。结合合理的参数设置,尤其在低 CFG 与优质采样器配合下,能够稳定输出接近专业摄影水准的图像结果,适合写实风格创作者纳入工作流程。
Qwen_Image_4_Grid_Display_Lora

Qwen_Image_4_Grid_Display_Lora

Qwen_Image_4_Grid_Display_LoRA 是一款基于 Qwen-Image 模型微调的 LoRA 适配器,专为生成四格统一视觉风格图像而设计。它能够将一个抽象创意或设计概念,一次性输出为四个在色彩、构图、视角和主题上高度一致的图像,形成一个完整的视觉网格,极大提升设计探索与原型迭代的效率。
Qwen-Image-2512-Turbo-LoRA

Qwen-Image-2512-Turbo-LoRA

Qwen-Image-2512-Turbo-LoRA 是由呜里团队训练的一个 4 步快速 LoRA,基于 Qwen-Image-2512  模型。该 LoRA 在保持原模型输出质量的同时,推理速度提升了 20 倍以上

暂无评论

none
暂无评论...