Qwen-Image-EliGen

264 00

Qwen-Image-EliGen是基于 Qwen-Image 训练的精确分区控制模型，模型结构为 LoRA，可以通过输入每个实体的文本和区域条件（蒙版图）来控制每个实体的位置和形状。

作者

阿里魔塔团队

基础模型

Qwen-Image

标签

Qwen-ImageQwen-Image-EliGen阿里魔塔

系列

Qwen-Image

魔塔

阿里魔塔团队开源了 Qwen-Image-EliGen —— 一个基于 Qwen-Image 的实体级可控图像生成模型。该模型通过引入区域注意力机制（Regional Attention），实现了对图像中多个语义实体的位置、形状与语义的精细化控制，同时保持生成结果的整体协调性与视觉质量。

这一进展为需要精确布局控制的文生图任务（如广告设计、场景合成、UI生成等）提供了更灵活、更可控的技术路径。

模型：https://www.modelscope.cn/models/DiffSynth-Studio/Qwen-Image-EliGen
ComfyUI插件：https://github.com/AIFSH/QwenImage-Diffsynth（非原生插件，不建议在本地使用）

什么是实体级控制？为什么重要？

传统的文生图模型（如 Stable Diffusion、Qwen-VL）依赖全局文本提示生成图像，虽然能生成高质量内容，但难以精确控制物体的位置、大小或局部结构。用户往往需要反复调整提示词或依赖后期编辑来达到预期效果。

而 实体级控制（Entity-level Control） 的目标是：

让用户能够分别定义图像中每个对象的“说什么”（语义）和“在哪、长什么样”（空间布局），实现“所想即所得”。

Qwen-Image-EliGen 正是为此设计：它允许用户为每个实体提供独立的文本描述和区域条件（如蒙版图），模型据此生成符合语义与空间约束的图像。

新型框架 EliGen：用于实现图像生成中的实体级控制

核心技术：区域注意力机制（Regional Attention）

EliGen 的核心技术在于其引入的 区域注意力机制，该机制在扩散模型的交叉注意力层中实现细粒度控制：

工作原理简述：

输入双条件：
- 每个实体的文本描述（例如：“一只棕色的狗”）
- 对应的区域条件（如二值蒙版图，标明该实体应出现的位置和大致形状）
注意力引导：
在去噪过程中，模型通过区域注意力机制，将特定文本描述的语义信息绑定到对应的空间区域，确保“狗”的文本只影响“狗”的蒙版区域，而不干扰背景或其他对象。
整体一致性保持：
所有实体并行生成，并通过共享的上下文建模机制保证光影、视角和风格的一致性，避免拼贴感。

这种设计使得模型既能实现局部精确控制，又能维持全局自然融合。

模型架构与训练细节

项目	说明
基础模型	Qwen-Image（通义千问多模态系列）
微调方式	LoRA，轻量高效，易于部署与组合
模型类型	精确分区控制模型，支持多实体、多区域输入
训练框架	基于 DiffSynth-Studio 构建
训练数据	DiffSynth-Studio/EliGenTrainSet，包含带区域标注的图文对数据集