阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

图像模型4个月前发布 小马良
181 0

阿里Qwen项目组今日正式推出 Qwen-Image-Edit,基于 Qwen-Image 20B 模型进一步训练而成,是 Qwen-Image 系列在图像编辑方向的重要延伸。

该模型不仅继承了 Qwen-Image 在文本渲染方面的优势,更首次实现对图像中文字的精准编辑,同时引入“语义+外观”双重控制机制,在 IP 创作、风格迁移、细节修复等复杂任务中表现出色。

  • 项目主页:https://qwenlm.github.io/zh/blog/qwen-image-edit
  • GitHub:https://github.com/QwenLM/Qwen-Image
  • Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit
  • 魔塔:https://modelscope.cn/models/Qwen/Qwen-Image-Edit
  • Demo:https://huggingface.co/spaces/Qwen/Qwen-Image-Edit

目前,Qwen-Image-Edit 已上线 Qwen Chat 平台,用户可通过选择“图像编辑”功能直接体验。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

核心能力:语义与外观的双重编辑

传统图像编辑模型往往难以兼顾内容语义一致性局部外观精确控制。Qwen-Image-Edit 通过创新架构设计,实现了两者的协同优化。

其关键在于:将输入图像同时送入两个分支:

  • Qwen2.5-VL:负责理解图像语义,指导高层级内容修改(如物体旋转、风格迁移);
  • VAE Encoder:保留原始视觉细节,支持低层级像素级操作(如添加、删除、微调特定元素)。

这一双路架构使模型既能进行“大刀阔斧”的创意改造,也能完成“毫米级”的精细调整。

1. 语义编辑:保持角色一致性的创造性修改

语义编辑关注的是“改得合理”,即在大幅改变图像外观的同时,保持核心语义不变。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

以 Qwen 吉祥物“卡皮巴拉”为例,模型可在不同场景、姿态、风格下生成其形象,尽管像素变化显著,但角色特征始终保持一致:

  • 改变动作与表情
  • 调整背景与光照
  • 适配节日主题或品牌调性

这一能力为原创 IP 的多样化延展提供了高效工具。例如,团队基于 MBTI 十六型人格设计提示词,成功生成了一套“卡皮巴拉 MBTI 表情包”,轻松拓展了品牌形象的应用边界。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

视角转换:让物体“转个身”

Qwen-Image-Edit 支持对物体进行90° 或 180° 旋转,实现从正面到背面的自然过渡,适用于产品展示、虚拟试穿等场景。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

风格迁移:一键切换艺术风格

输入一张普通人物头像,模型可将其转换为吉卜力、水墨、赛博朋克等多种风格,且保持面部结构与身份识别度,在虚拟形象、内容创作等领域具有广泛应用潜力。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

2. 外观编辑:像素级精准控制

外观编辑强调“局部修改,其余不变”,适用于需要高度保真的任务。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

添加元素:自然融合,细节到位

如下图所示,在街景中添加指示牌时,模型不仅准确生成文字和形状,还自动添加了与环境匹配的倒影和透视效果,视觉融合度极高。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

删除干扰:精细去噪

可有效去除图像中的微小干扰物,如飘散的发丝、水渍、电线等,适用于人像精修、证件照处理等场景。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

局部修改:精确到单个字符

支持对图像中指定元素进行颜色、形状或内容修改。例如,将字母“n”改为蓝色,其他区域完全不受影响。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

此类能力在广告设计、海报修改、UI 截图优化等工作中极具实用价值。

3. 精准文字编辑:中英文双语支持,保留原有样式

得益于 Qwen-Image 在文本渲染上的长期积累,Qwen-Image-Edit 实现了业界领先的图像内文字编辑能力

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

它能在不改变字体、字号、倾斜角度和颜色风格的前提下,直接对图片中的文字进行:

  • 增加
  • 删除
  • 替换

无论是英文海报还是中文宣传图,均可实现“所见即所得”的编辑体验:

  • 修改英文标题中的拼写错误
  • 更新中文海报上的活动时间
  • 替换品牌标语而不影响整体排版

这对于内容运营、市场营销等依赖高频视觉更新的场景,意味着极大的效率提升。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

实际案例:链式编辑修复书法作品

一个典型的应用场景是修复 AI 生成图像中的错误。以下是一幅由 Qwen-Image 生成的《兰亭集序》书法作品,其中存在多个错字。

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

使用 Qwen-Image-Edit,可通过链式编辑逐步修正:

  1. 用红框标注需修改的“稽”字;
  2. 模型首次输出仍误写为“日”底;
  3. 再次圈出错误部分,提示应为“旨”;
  4. 模型据此微调,最终生成正确字形。

通过多轮交互式编辑,最终获得完全准确的书法版本。
阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型阿里 Qwen 团队发布Qwen-Image-Edit:支持语义与外观双重编辑的图像编辑模型

这种“局部标注 + 渐进优化”的模式,极大降低了高质量视觉内容的后期修正成本。

性能表现:多个基准测试达到 SOTA

在多个公开图像编辑基准上的评估表明,Qwen-Image-Edit 在以下任务中均达到或超越当前开源模型的最佳水平:

  • 文字编辑保真度(Text Editing Fidelity)
  • 语义一致性(Semantic Consistency)
  • 视觉质量(Image Quality)
  • 编辑精确性(Localization Accuracy)

作为一个通用图像编辑基础模型,Qwen-Image-Edit 展现出强大的泛化能力与实用性。

© 版权声明

相关文章

暂无评论

none
暂无评论...