Qwen-Image-EliGen

225 00

Qwen-Image-EliGen是基于 Qwen-Image 训练的精确分区控制模型,模型结构为 LoRA,可以通过输入每个实体的文本和区域条件(蒙版图)来控制每个实体的位置和形状。

作者
阿里魔塔团队
基础模型
Qwen-Image
 Qwen-Image-EliGen

阿里魔塔团队开源了 Qwen-Image-EliGen —— 一个基于 Qwen-Image 的实体级可控图像生成模型。该模型通过引入区域注意力机制(Regional Attention),实现了对图像中多个语义实体的位置、形状与语义的精细化控制,同时保持生成结果的整体协调性与视觉质量。

 Qwen-Image-EliGen

这一进展为需要精确布局控制的文生图任务(如广告设计、场景合成、UI生成等)提供了更灵活、更可控的技术路径。

 Qwen-Image-EliGen

什么是实体级控制?为什么重要?

传统的文生图模型(如 Stable Diffusion、Qwen-VL)依赖全局文本提示生成图像,虽然能生成高质量内容,但难以精确控制物体的位置、大小或局部结构。用户往往需要反复调整提示词或依赖后期编辑来达到预期效果。

 Qwen-Image-EliGen

而 实体级控制(Entity-level Control) 的目标是:

让用户能够分别定义图像中每个对象的“说什么”(语义)和“在哪、长什么样”(空间布局),实现“所想即所得”。

Qwen-Image-EliGen 正是为此设计:它允许用户为每个实体提供独立的文本描述和区域条件(如蒙版图),模型据此生成符合语义与空间约束的图像。

新型框架 EliGen:用于实现图像生成中的实体级控制

核心技术:区域注意力机制(Regional Attention)

EliGen 的核心技术在于其引入的 区域注意力机制,该机制在扩散模型的交叉注意力层中实现细粒度控制:

工作原理简述:

  1. 输入双条件
    • 每个实体的文本描述(例如:“一只棕色的狗”)
    • 对应的区域条件(如二值蒙版图,标明该实体应出现的位置和大致形状)
  2. 注意力引导
    在去噪过程中,模型通过区域注意力机制,将特定文本描述的语义信息绑定到对应的空间区域,确保“狗”的文本只影响“狗”的蒙版区域,而不干扰背景或其他对象。
  3. 整体一致性保持
    所有实体并行生成,并通过共享的上下文建模机制保证光影、视角和风格的一致性,避免拼贴感。

这种设计使得模型既能实现局部精确控制,又能维持全局自然融合。

模型架构与训练细节

项目说明
基础模型Qwen-Image(通义千问多模态系列)
微调方式LoRA,轻量高效,易于部署与组合
模型类型精确分区控制模型,支持多实体、多区域输入
训练框架基于 DiffSynth-Studio 构建
训练数据DiffSynth-Studio/EliGenTrainSet,包含带区域标注的图文对数据集

✅ 由于采用 LoRA 结构,Qwen-Image-EliGen 可直接与原始 Qwen-Image 模型结合使用,无需修改主干网络,支持即插即用。

典型应用场景

EliGen 特别适用于以下需要语义+布局双重控制的任务:

  • 广告创意生成:固定品牌 Logo 位置,动态替换产品外观
  • 室内设计布局:按用户草图放置家具,保持风格统一
  • 角色场景合成:控制人物姿态与位置,生成连贯剧情图像
  • UI/UX 原型生成:根据布局框生成符合语义的界面元素

相比传统 ControlNet 等基于边缘或深度图的控制方式,EliGen 提供了更高层次的语义化区域控制能力,更适合复杂多对象场景。

相关图书

VestalWater's Illustrious Styles for Qwen Image

VestalWater's Illustrious Styles for Qwen Image

VestalWater's Illustrious Styles for Qwen Image 是一次对 AI 图像美学方向的主动选择——它不迎合大众审美趋势,而是服务于特定创作者群体的需求:那些希望摆脱“AI塑料感”、追求更具手绘质感与专业实用性的用户。
PJ0 QwenImage Realistic FP8

PJ0 QwenImage Realistic FP8

PJ0 QwenImage Realistic FP8 是一次针对性明确的优化迭代,重点提升真实感与细节表现力。结合合理的参数设置,尤其在低 CFG 与优质采样器配合下,能够稳定输出接近专业摄影水准的图像结果,适合写实风格创作者纳入工作流程。
Raena-Qwen-Image

Raena-Qwen-Image

Raena-Qwen-Image 是一个为 Qwen-Image 微调的 LoRA,专为动漫风格生成设计。该模型的目标是增强 Qwen-Image 在生成高质量动漫输出的能力,具有更清晰的细节、更丰富的色彩和更好的美学效果。
AWPortrait-QW

AWPortrait-QW

AWPortrait QW 是基于QwenImage架构下的模型,使用更符合中国人长相特征及审美的训练集进行训练,包含室内室外人像、时尚、棚拍写真等众多类型,泛化性强。相较于原始版Qwen,AWPortrait QW对于肤质表现更加细腻且真实,LoRA建议权重1。

暂无评论

none
暂无评论...