GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集

图像模型4个月前发布 小马良
171 0

在图像生成领域,闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力,能够精准执行复杂的文本引导编辑任务。相比之下,开源社区虽有进展,却始终受限于高质量、大规模训练数据的缺失

为弥合这一差距,加州大学圣克鲁兹分校、爱丁堡大学与 Adobe 联合推出 GPT-IMAGE-EDIT-1.5M——一个迄今为止最大规模、最高质量的开源图像编辑数据集,包含超过 150 万个高质量三元组:{指令, 源图像, 编辑后图像}。

该数据集不仅规模庞大,更通过 GPT-4o 对现有数据进行系统性重构,在视觉质量、语义对齐和指令一致性上实现了全面提升,为开源图像编辑模型的发展提供了坚实基础。

GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集
  • [2025.07.30] 研究团队上传了基准测试结果和仅用于微调的 FluxKontext T5 模型。
  • [2025.07.27] 研究团队发布了 GPT-Image-Edit,一个包含 150 万高质量编辑样本的最先进图像编辑模型。所有数据、模型、训练代码和评估代码均已开源。此模型是基于UniWorld-V1。

为什么需要 GPT-IMAGE-EDIT-1.5M?

当前主流的图像编辑模型依赖于人工标注或弱监督生成的数据,普遍存在三大问题:

  1. 指令与输出不一致:生成图像未能准确反映编辑指令;
  2. 视觉质量参差:存在模糊、畸变或伪影;
  3. 语义表达不清:原始提示词冗长、歧义或结构混乱。

这些问题严重制约了模型的训练效果,导致其在复杂编辑任务中表现不佳。

GPT-IMAGE-EDIT-1.5M 的目标,正是通过以强模型(GPT-4o)重构弱数据的方式,打造一个可信赖的高质量基准。

GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集

数据构建方法:用 GPT-4o 重塑三大数据集

研究团队整合并优化了三个现有流行数据集:OmniEdit、HQ-Edit 和 UltraEdit,通过以下两个核心步骤进行重构:

1. 重新生成输出图像:提升视觉质量与指令对齐

原始数据中的编辑图像多由早期模型生成,质量有限。团队利用 GPT-4o 的多模态能力,将原始指令和源图像输入模型,重新生成编辑结果

这一过程确保:

  • 图像分辨率更高、细节更丰富;
  • 更好地遵循空间、语义和风格指令;
  • 减少结构错误与视觉伪影。

✅ 示例:指令“把狗变成穿着宇航服的猫”在原数据中可能只改变头部,而在新数据中会完整替换全身并保持姿态自然。

2. 选择性重写指令:增强语义清晰度

许多原始指令存在表达模糊、语法错误或信息冗余问题。团队使用 GPT-4o 对提示词进行语义保留的重写,使其更简洁、明确且易于模型理解。

例如:

  • 原始指令:“make the sky more blue and a bit brighter maybe”
  • 优化后:“Change the sky to a vivid blue and increase brightness by 20%”

这种标准化处理显著提升了指令与图像之间的对齐度。

数据集特点:高质量、多样化、可复现

特性说明
规模超过 150 万条三元组,覆盖广泛场景
质量所有编辑图像由 GPT-4o 生成,视觉保真度高
多样性包含颜色调整、物体替换、风格迁移、组合编辑等多种任务
复杂性支持多步、多对象、跨模态的复杂编辑指令
开源性全部数据、代码、训练脚本与微调模型均已公开

实验验证:显著缩小与闭源模型的差距

为了验证数据集的有效性,研究人员在 GPT-IMAGE-EDIT-1.5M 上微调了当前先进的开源模型 FluxKontext dev,并在多个权威基准上进行测试。

结果表明,微调后的模型在指令遵循、感知质量和身份保持方面均取得突破性进展:

主要测试结果汇总

基准测试指标微调模型得分对比表现
GEdit-EN-full平均得分7.24超越所有现有开源方法
ImgEdit-Full整体得分3.80显著优于基线模型
Complex-Edit (C8)IF (指令遵循)8.99接近人类水平
IP (身份保持)8.41优于多数专有模型
PQ (感知质量)8.93视觉自然度高
总分8.78当前开源最佳
OmniContext (SINGLE)平均得分7.99接近 GPT-4o 的 8.95

这些结果证明,高质量数据本身就能极大提升模型能力。经过该数据集训练的开源模型,已能在多项任务上逼近甚至媲美闭源系统。

技术路径:条件对齐与模型微调

在训练过程中,团队采用以下关键技术:

  • 使用 Qwen-VL-7B 提取指令嵌入,增强文本-图像对齐;
  • 设计分层损失函数,平衡编辑精度与原始内容保留;
  • 引入身份一致性约束,防止过度修改非目标区域。

整个训练流程完全开源,支持复现与二次开发。

© 版权声明

相关文章

暂无评论

none
暂无评论...