Qwen-Image-EliGen

248 00

Qwen-Image-EliGen是基于 Qwen-Image 训练的精确分区控制模型,模型结构为 LoRA,可以通过输入每个实体的文本和区域条件(蒙版图)来控制每个实体的位置和形状。

作者
阿里魔塔团队
基础模型
Qwen-Image
 Qwen-Image-EliGen

阿里魔塔团队开源了 Qwen-Image-EliGen —— 一个基于 Qwen-Image 的实体级可控图像生成模型。该模型通过引入区域注意力机制(Regional Attention),实现了对图像中多个语义实体的位置、形状与语义的精细化控制,同时保持生成结果的整体协调性与视觉质量。

 Qwen-Image-EliGen

这一进展为需要精确布局控制的文生图任务(如广告设计、场景合成、UI生成等)提供了更灵活、更可控的技术路径。

 Qwen-Image-EliGen

什么是实体级控制?为什么重要?

传统的文生图模型(如 Stable Diffusion、Qwen-VL)依赖全局文本提示生成图像,虽然能生成高质量内容,但难以精确控制物体的位置、大小或局部结构。用户往往需要反复调整提示词或依赖后期编辑来达到预期效果。

 Qwen-Image-EliGen

而 实体级控制(Entity-level Control) 的目标是:

让用户能够分别定义图像中每个对象的“说什么”(语义)和“在哪、长什么样”(空间布局),实现“所想即所得”。

Qwen-Image-EliGen 正是为此设计:它允许用户为每个实体提供独立的文本描述和区域条件(如蒙版图),模型据此生成符合语义与空间约束的图像。

新型框架 EliGen:用于实现图像生成中的实体级控制

核心技术:区域注意力机制(Regional Attention)

EliGen 的核心技术在于其引入的 区域注意力机制,该机制在扩散模型的交叉注意力层中实现细粒度控制:

工作原理简述:

  1. 输入双条件
    • 每个实体的文本描述(例如:“一只棕色的狗”)
    • 对应的区域条件(如二值蒙版图,标明该实体应出现的位置和大致形状)
  2. 注意力引导
    在去噪过程中,模型通过区域注意力机制,将特定文本描述的语义信息绑定到对应的空间区域,确保“狗”的文本只影响“狗”的蒙版区域,而不干扰背景或其他对象。
  3. 整体一致性保持
    所有实体并行生成,并通过共享的上下文建模机制保证光影、视角和风格的一致性,避免拼贴感。

这种设计使得模型既能实现局部精确控制,又能维持全局自然融合。

模型架构与训练细节

项目说明
基础模型Qwen-Image(通义千问多模态系列)
微调方式LoRA,轻量高效,易于部署与组合
模型类型精确分区控制模型,支持多实体、多区域输入
训练框架基于 DiffSynth-Studio 构建
训练数据DiffSynth-Studio/EliGenTrainSet,包含带区域标注的图文对数据集

✅ 由于采用 LoRA 结构,Qwen-Image-EliGen 可直接与原始 Qwen-Image 模型结合使用,无需修改主干网络,支持即插即用。

典型应用场景

EliGen 特别适用于以下需要语义+布局双重控制的任务:

  • 广告创意生成:固定品牌 Logo 位置,动态替换产品外观
  • 室内设计布局:按用户草图放置家具,保持风格统一
  • 角色场景合成:控制人物姿态与位置,生成连贯剧情图像
  • UI/UX 原型生成:根据布局框生成符合语义的界面元素

相比传统 ControlNet 等基于边缘或深度图的控制方式,EliGen 提供了更高层次的语义化区域控制能力,更适合复杂多对象场景。

相关图书

Qwen-Image-2512-Turbo-LoRA-2-Steps

Qwen-Image-2512-Turbo-LoRA-2-Steps

由 Wuli 团队训练的 两步加速版 LoRA,适用于 Qwen Image 2512,相比Wuli 之前的 四步加速版 LoRA 有所改进。
VestalWater's Illustrious Styles for Qwen Image

VestalWater's Illustrious Styles for Qwen Image

VestalWater's Illustrious Styles for Qwen Image 是一次对 AI 图像美学方向的主动选择——它不迎合大众审美趋势,而是服务于特定创作者群体的需求:那些希望摆脱“AI塑料感”、追求更具手绘质感与专业实用性的用户。
Qwen-Image-Edit-InStyle

Qwen-Image-Edit-InStyle

Qwen-Image-Edit-InStyle 是对 Qwen-Image-Edit 模型在风格迁移能力上的一次重要增强。 它让原本“泛化有余、精准不足”的风格迁移,变得可预测、可控制、可复用,特别适用于: 艺术创作中的风格探索、品牌视觉统一性生成、游戏与动画概念设计、个性化内容生成。
Qwen_Image_4_Grid_Display_Lora

Qwen_Image_4_Grid_Display_Lora

Qwen_Image_4_Grid_Display_LoRA 是一款基于 Qwen-Image 模型微调的 LoRA 适配器,专为生成四格统一视觉风格图像而设计。它能够将一个抽象创意或设计概念,一次性输出为四个在色彩、构图、视角和主题上高度一致的图像,形成一个完整的视觉网格,极大提升设计探索与原型迭代的效率。

暂无评论

none
暂无评论...