Echo-4o :通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

新技术4个月前发布 小马良
159 0

上海人工智能实验室、中山大学、香港中文大学和北京大学的研究人员推出 Echo-4o 系统,通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型(如文本到图像生成、多参考图像生成等任务)的性能。尽管 GPT-4o 在图像生成任务中表现出色,但开源模型仍存在差距。研究团队通过分析合成图像的优势,提出了一个大规模合成数据集 Echo-4o-Image,并通过该数据集微调了一个名为 Echo-4o 的模型,显著提升了其在多个基准测试中的表现。

例如,用户要求生成一个“由水晶制成的苹果”或“在云中的火车”这样的超现实图像。这些场景在现实世界数据集中很少见,但 GPT-4o 可以有效地合成这些奇幻内容。通过利用这些合成数据,Echo-4o 模型能够更好地理解和生成这类富有想象力的图像。

 Echo-4o :通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

主要功能

  1. 合成数据集构建:Echo-4o-Image 是一个包含 180K 样本的大规模合成数据集,涵盖超现实奇幻图像、多参考图像生成和复杂指令执行任务。
  2. 模型微调:基于 Echo-4o-Image 数据集,对 Bagel 模型进行微调,得到 Echo-4o 模型,显著提升其在文本到图像生成和多参考图像合成任务中的表现。
  3. 新基准测试:提出了两个新的基准测试 GenEval++ 和 Imagine-Bench,用于更准确地评估图像生成模型的指令遵循和想象力生成能力。
 Echo-4o :通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能

主要特点

  1. 补充现实世界数据的不足:合成图像可以涵盖现实世界数据集中罕见的场景,如超现实奇幻内容或多参考图像生成任务。
  2. 提供纯净且可控的监督信号:合成图像通常具有干净的背景和长尾属性组合,有助于解决现实世界图像中常见的视觉-语言错位和长尾分布问题。
  3. 强大的泛化能力:Echo-4o-Image 数据集不仅提升了 Bagel 模型的性能,还对其他基础模型(如 OmniGen2 和 BLIP3-o)表现出一致的性能提升。

工作原理

  1. 数据集构建
    • 超现实奇幻图像生成:通过 GPT-4o 生成具有奇幻属性的图像,如“由扑克牌组成的火车”或“金字塔形状的菠萝”。
    • 多参考图像生成:设计包含多个参考图像的输入,以及指定如何从每个图像中提取元素并组合成一致输出的文本提示。
    • 复杂指令执行:生成涉及多个对象和属性的复杂文本指令,如“一个橙色电视、一个绿色蝴蝶结和一个黄色螺丝刀”。
  2. 模型微调
    • 使用 Echo-4o-Image 数据集对 Bagel 模型进行微调,优化其在文本到图像生成和多参考图像合成任务中的表现。
    • 采用流匹配损失(flow matching loss)进行训练,确保生成图像与文本指令的一致性。
  3. 基准测试
    • GenEval++:通过增加指令复杂性,缓解现有文本到图像评估中的分数饱和问题。
    • Imagine-Bench:专注于评估模型在奇幻和想象力图像生成方面的能力,从幻想实现、身份保持和美学质量三个维度进行评分。

测试结果

  1. 指令遵循图像生成
    • 在 GenEval 基准测试中,Echo-4o 达到 0.89 分,超越了 Bagel 和 OmniGen2 等先前的最先进模型。
    • 在 GenEval++ 基准测试中,Echo-4o 超过 OmniGen2 和 Bagel,展现出强大的指令遵循能力。
  2. 超现实奇幻图像生成
    • 在 Imagine-Bench 基准测试中,Echo-4o 在奇幻实现、身份保持和美学质量三个维度上均优于其他模型。
  3. 多参考图像生成
    • 在 OmniContext 基准测试中,Echo-4o 在多参考图像生成任务中表现出色,超越了 OmniGen2 等其他开源模型。
 Echo-4o :通过利用 GPT-4o 生成的合成图像数据来提升多模态生成模型的性能
© 版权声明

相关文章

暂无评论

none
暂无评论...