阿里Qwen项目组今日正式推出 Qwen-Image-Edit,基于 Qwen-Image 20B 模型进一步训练而成,是 Qwen-Image 系列在图像编辑方向的重要延伸。
该模型不仅继承了 Qwen-Image 在文本渲染方面的优势,更首次实现对图像中文字的精准编辑,同时引入“语义+外观”双重控制机制,在 IP 创作、风格迁移、细节修复等复杂任务中表现出色。
- 项目主页:https://qwenlm.github.io/zh/blog/qwen-image-edit
- GitHub:https://github.com/QwenLM/Qwen-Image
- Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit
- 魔塔:https://modelscope.cn/models/Qwen/Qwen-Image-Edit
- Demo:https://huggingface.co/spaces/Qwen/Qwen-Image-Edit
目前,Qwen-Image-Edit 已上线 Qwen Chat 平台,用户可通过选择“图像编辑”功能直接体验。

核心能力:语义与外观的双重编辑
传统图像编辑模型往往难以兼顾内容语义一致性与局部外观精确控制。Qwen-Image-Edit 通过创新架构设计,实现了两者的协同优化。
其关键在于:将输入图像同时送入两个分支:
- Qwen2.5-VL:负责理解图像语义,指导高层级内容修改(如物体旋转、风格迁移);
- VAE Encoder:保留原始视觉细节,支持低层级像素级操作(如添加、删除、微调特定元素)。
这一双路架构使模型既能进行“大刀阔斧”的创意改造,也能完成“毫米级”的精细调整。
1. 语义编辑:保持角色一致性的创造性修改
语义编辑关注的是“改得合理”,即在大幅改变图像外观的同时,保持核心语义不变。

以 Qwen 吉祥物“卡皮巴拉”为例,模型可在不同场景、姿态、风格下生成其形象,尽管像素变化显著,但角色特征始终保持一致:
- 改变动作与表情
- 调整背景与光照
- 适配节日主题或品牌调性
这一能力为原创 IP 的多样化延展提供了高效工具。例如,团队基于 MBTI 十六型人格设计提示词,成功生成了一套“卡皮巴拉 MBTI 表情包”,轻松拓展了品牌形象的应用边界。

视角转换:让物体“转个身”
Qwen-Image-Edit 支持对物体进行90° 或 180° 旋转,实现从正面到背面的自然过渡,适用于产品展示、虚拟试穿等场景。


风格迁移:一键切换艺术风格
输入一张普通人物头像,模型可将其转换为吉卜力、水墨、赛博朋克等多种风格,且保持面部结构与身份识别度,在虚拟形象、内容创作等领域具有广泛应用潜力。

2. 外观编辑:像素级精准控制
外观编辑强调“局部修改,其余不变”,适用于需要高度保真的任务。


添加元素:自然融合,细节到位
如下图所示,在街景中添加指示牌时,模型不仅准确生成文字和形状,还自动添加了与环境匹配的倒影和透视效果,视觉融合度极高。

删除干扰:精细去噪
可有效去除图像中的微小干扰物,如飘散的发丝、水渍、电线等,适用于人像精修、证件照处理等场景。

局部修改:精确到单个字符
支持对图像中指定元素进行颜色、形状或内容修改。例如,将字母“n”改为蓝色,其他区域完全不受影响。

此类能力在广告设计、海报修改、UI 截图优化等工作中极具实用价值。
3. 精准文字编辑:中英文双语支持,保留原有样式
得益于 Qwen-Image 在文本渲染上的长期积累,Qwen-Image-Edit 实现了业界领先的图像内文字编辑能力。


它能在不改变字体、字号、倾斜角度和颜色风格的前提下,直接对图片中的文字进行:
- 增加
- 删除
- 替换
无论是英文海报还是中文宣传图,均可实现“所见即所得”的编辑体验:
- 修改英文标题中的拼写错误
- 更新中文海报上的活动时间
- 替换品牌标语而不影响整体排版
这对于内容运营、市场营销等依赖高频视觉更新的场景,意味着极大的效率提升。

实际案例:链式编辑修复书法作品
一个典型的应用场景是修复 AI 生成图像中的错误。以下是一幅由 Qwen-Image 生成的《兰亭集序》书法作品,其中存在多个错字。

使用 Qwen-Image-Edit,可通过链式编辑逐步修正:
- 用红框标注需修改的“稽”字;
- 模型首次输出仍误写为“日”底;
- 再次圈出错误部分,提示应为“旨”;
- 模型据此微调,最终生成正确字形。
通过多轮交互式编辑,最终获得完全准确的书法版本。






这种“局部标注 + 渐进优化”的模式,极大降低了高质量视觉内容的后期修正成本。
性能表现:多个基准测试达到 SOTA
在多个公开图像编辑基准上的评估表明,Qwen-Image-Edit 在以下任务中均达到或超越当前开源模型的最佳水平:
- 文字编辑保真度(Text Editing Fidelity)
- 语义一致性(Semantic Consistency)
- 视觉质量(Image Quality)
- 编辑精确性(Localization Accuracy)
作为一个通用图像编辑基础模型,Qwen-Image-Edit 展现出强大的泛化能力与实用性。















