阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

图像模型7个月前发布小马良

220 0

阿里Qwen项目组今日正式推出 Qwen-Image-Edit，基于 Qwen-Image 20B 模型进一步训练而成，是 Qwen-Image 系列在图像编辑方向的重要延伸。

该模型不仅继承了 Qwen-Image 在文本渲染方面的优势，更首次实现对图像中文字的精准编辑，同时引入“语义+外观”双重控制机制，在 IP 创作、风格迁移、细节修复等复杂任务中表现出色。

项目主页：https://qwenlm.github.io/zh/blog/qwen-image-edit
GitHub：https://github.com/QwenLM/Qwen-Image
Hugging Face：https://huggingface.co/Qwen/Qwen-Image-Edit
魔塔：https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Demo：https://huggingface.co/spaces/Qwen/Qwen-Image-Edit

目前，Qwen-Image-Edit 已上线 Qwen Chat 平台，用户可通过选择“图像编辑”功能直接体验。

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

核心能力：语义与外观的双重编辑

传统图像编辑模型往往难以兼顾内容语义一致性与局部外观精确控制。Qwen-Image-Edit 通过创新架构设计，实现了两者的协同优化。

其关键在于：将输入图像同时送入两个分支：

Qwen2.5-VL：负责理解图像语义，指导高层级内容修改（如物体旋转、风格迁移）；
VAE Encoder：保留原始视觉细节，支持低层级像素级操作（如添加、删除、微调特定元素）。

这一双路架构使模型既能进行“大刀阔斧”的创意改造，也能完成“毫米级”的精细调整。

1. 语义编辑：保持角色一致性的创造性修改

语义编辑关注的是“改得合理”，即在大幅改变图像外观的同时，保持核心语义不变。

以 Qwen 吉祥物“卡皮巴拉”为例，模型可在不同场景、姿态、风格下生成其形象，尽管像素变化显著，但角色特征始终保持一致：

改变动作与表情
调整背景与光照
适配节日主题或品牌调性

这一能力为原创 IP 的多样化延展提供了高效工具。例如，团队基于 MBTI 十六型人格设计提示词，成功生成了一套“卡皮巴拉 MBTI 表情包”，轻松拓展了品牌形象的应用边界。

视角转换：让物体“转个身”

Qwen-Image-Edit 支持对物体进行90° 或 180° 旋转，实现从正面到背面的自然过渡，适用于产品展示、虚拟试穿等场景。

风格迁移：一键切换艺术风格

输入一张普通人物头像，模型可将其转换为吉卜力、水墨、赛博朋克等多种风格，且保持面部结构与身份识别度，在虚拟形象、内容创作等领域具有广泛应用潜力。

2. 外观编辑：像素级精准控制

外观编辑强调“局部修改，其余不变”，适用于需要高度保真的任务。

添加元素：自然融合，细节到位

如下图所示，在街景中添加指示牌时，模型不仅准确生成文字和形状，还自动添加了与环境匹配的倒影和透视效果，视觉融合度极高。

删除干扰：精细去噪

可有效去除图像中的微小干扰物，如飘散的发丝、水渍、电线等，适用于人像精修、证件照处理等场景。

局部修改：精确到单个字符

支持对图像中指定元素进行颜色、形状或内容修改。例如，将字母“n”改为蓝色，其他区域完全不受影响。

此类能力在广告设计、海报修改、UI 截图优化等工作中极具实用价值。

3. 精准文字编辑：中英文双语支持，保留原有样式

得益于 Qwen-Image 在文本渲染上的长期积累，Qwen-Image-Edit 实现了业界领先的图像内文字编辑能力。

它能在不改变字体、字号、倾斜角度和颜色风格的前提下，直接对图片中的文字进行：

增加
删除
替换

无论是英文海报还是中文宣传图，均可实现“所见即所得”的编辑体验：

修改英文标题中的拼写错误
更新中文海报上的活动时间
替换品牌标语而不影响整体排版

这对于内容运营、市场营销等依赖高频视觉更新的场景，意味着极大的效率提升。

实际案例：链式编辑修复书法作品

一个典型的应用场景是修复 AI 生成图像中的错误。以下是一幅由 Qwen-Image 生成的《兰亭集序》书法作品，其中存在多个错字。

使用 Qwen-Image-Edit，可通过链式编辑逐步修正：

用红框标注需修改的“稽”字；
模型首次输出仍误写为“日”底；
再次圈出错误部分，提示应为“旨”；
模型据此微调，最终生成正确字形。

通过多轮交互式编辑，最终获得完全准确的书法版本。
阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

这种“局部标注 + 渐进优化”的模式，极大降低了高质量视觉内容的后期修正成本。

性能表现：多个基准测试达到 SOTA

在多个公开图像编辑基准上的评估表明，Qwen-Image-Edit 在以下任务中均达到或超越当前开源模型的最佳水平：

文字编辑保真度（Text Editing Fidelity）
语义一致性（Semantic Consistency）
视觉质量（Image Quality）
编辑精确性（Localization Accuracy）

作为一个通用图像编辑基础模型，Qwen-Image-Edit 展现出强大的泛化能力与实用性。

图像模型 # Qwen-Image-Edit # 图像编辑模型

文章版权归作者所有，未经允许请勿转载。

CosmicMan：专注于生成高保真人类图像的文生图基础模型

图像模型 # CosmicMan # 文生图模型

1年前

01,0710

StarVector：利用多模态大语言模型（MLLM）从图像和文本生成SVG代码

图像模型 # StarVector # SVG代码 # 多模态大语言模型

11个月前

04700

图像质量评估体系HPSv3：用“人类偏好”重新定义图像生成质量评估

图像模型 # HPSv3 # 图像质量评估体系

7个月前

03980

跨模态图像生成模型Qwen2vl-Flux：将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成

图像模型 # Qwen2vl-Flux # 视觉语言模型

1年前

03310

暂无评论

暂无评论...

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

核心能力：语义与外观的双重编辑

1. 语义编辑：保持角色一致性的创造性修改

视角转换：让物体“转个身”

风格迁移：一键切换艺术风格

2. 外观编辑：像素级精准控制

添加元素：自然融合，细节到位

删除干扰：精细去噪

局部修改：精确到单个字符

3. 精准文字编辑：中英文双语支持，保留原有样式

实际案例：链式编辑修复书法作品

性能表现：多个基准测试达到 SOTA

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

相关文章

CosmicMan：专注于生成高保真人类图像的文生图基础模型

StarVector：利用多模态大语言模型（MLLM）从图像和文本生成SVG代码

图像质量评估体系HPSv3：用“人类偏好”重新定义图像生成质量评估

跨模态图像生成模型Qwen2vl-Flux：将Qwen2VL的视觉语言理解能力与FLUX框架相结合，实现了更精确和上下文感知的图像生成

暂无评论

文章

新Obsidian 1.12 重磅更新：原生 CLI 命令行界面上线，解锁笔记自动化与 AI 工作流新玩法

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

蚂蚁集团 inclusionAI 团队推出Ring-2.5-1T：全球首个万亿参数混合线性注意力思维模型

LiquidAI 发布 LFM2-24B-A2B：240 亿参数 MoE 模型，仅需 20 亿激活即可在 32GB 内存笔记本上流畅运行

字节跳动开源 BitDance：14B 参数自回归模型，生成速度超越扩散模型 30 倍

新你的硬盘还好吗？Chrome 后台自动部署 Gemini Nano 模型，三步教你彻底关闭并清理空间

新CoPaw

YouMind

NanoClaw

OpenClaw（Clawdbot/Moltbot）

OpenCloud

OpenClaw

阿里 Qwen 团队发布Qwen-Image-Edit：支持语义与外观双重编辑的图像编辑模型

核心能力：语义与外观的双重编辑

1. 语义编辑：保持角色一致性的创造性修改

视角转换：让物体“转个身”

风格迁移：一键切换艺术风格

2. 外观编辑：像素级精准控制

添加元素：自然融合，细节到位

删除干扰：精细去噪

局部修改：精确到单个字符

3. 精准文字编辑：中英文双语支持，保留原有样式

实际案例：链式编辑修复书法作品

性能表现：多个基准测试达到 SOTA

Nunchaku发布量化版Qwen-Image模型，支持高效图像生成

GNER-T5-XXL：GNER 提升零样本实体识别能力，可用于 Flux、Chroma 等模型

相关文章

文章

标签云

网址

新CoPaw

YouMind

NanoClaw

OpenClaw（Clawdbot/Moltbot）

OpenCloud

OpenClaw