近年来,生成模型在生成高质量图像方面取得了显著进展,但大多数模型依赖于专有的高质量数据集,并且有些模型保留了其参数,只提供可访问的应用程序编程接口(APIs)。这限制了这些模型在下游任务中的应用。为了探索使用公开可用资源训练一个与先进模型相当的文本到图像生成模型的可行性,新加坡国立大学 Show Lab 和阿里巴巴的研究人员推出了 EvolveDirector 框架。它的目标是通过使用公开可用的资源来训练一个能够与高级文本到图像生成模型相媲美的模型。简单来说,EvolveDirector希望能够用公开的资源训练出一个能够生成高质量图片的AI模型,就像那些需要大量私密数据和秘密参数的高级模型一样。
例如,如果你想创建一个穿着古代盔甲的勇士站在蜿蜒的山径上的图像,你可以将这个文本提示输入EvolveDirector,它将生成一个符合描述的高质量图像。这个过程不需要大量的训练数据,也不需要访问高级模型的内部参数,而是通过与这些模型的公共API交互来实现的。
关键技术
大规模数据采集:
- 与公共 API 交互:通过与先进模型的公共 API 交互,获取大量的文本图像数据对。
- 数据量需求:实验表明,训练一个接近高级模型生成能力的基础模型需要超过 1000 万个或更多的样本。
预训练的大型视觉语言模型(VLMs):
- 持续评估:使用预训练的 VLM 在训练过程中持续评估基础模型的性能。
- 动态更新:通过区分、扩展、删除和变异操作动态更新和优化训练数据集。
数据优化:
- 减少数据量:通过 VLM 的指导,显著减少了所需的数据量。
- 选择最佳样本:当接近多个先进模型时,选择它们生成的最佳样本来学习强大且平衡的能力。
主要功能和特点:
- 利用公开API获取数据:EvolveDirector通过与高级模型的公共API交互来获取文本和图像数据对,用于训练基础模型。
- 减少训练数据需求:通过使用大型视觉语言模型(VLMs)来指导基础模型的训练,动态更新和优化训练数据集,从而减少了所需的数据量。
- 提高训练效率:EvolveDirector采用了在线学习框架,使得基础模型能够持续训练,不需要暂停等待高级模型或VLM的执行。
- 多尺度训练:基础模型能够生成不同尺寸和比例的图像,提高了模型的灵活性和应用范围。
工作原理:
EvolveDirector的工作原理包括以下几个步骤:
- 与高级模型交互:通过API提交文本提示并接收对应的生成图像。
- 动态训练集维护:使用VLM评估基础模型的性能,并根据评估结果动态更新训练集,包括扩张、删除和变异操作。
- 基础模型训练:在动态变化的训练集上训练一个扩散变换(DiT)模型,该模型能够生成高质量的图像。
实验结果
- 数据量需求:实验表明,直接使用公共 API 生成的数据训练基础模型需要超过 1000 万个样本,这导致了巨大的时间和计算资源开销。
- 数据优化效果:通过 VLM 的指导,显著减少了所需的数据量,提高了训练效率。
- 模型性能:最终训练的模型 Edgen 在生成高质量图像方面优于多个先进模型,展示了强大的生成能力和平衡的性能。
评论0