天工AI、
,专为指令引导的图像编辑而设计。该数据集通过开放式语言指令实现精确和多样化的图像操作,旨在解决现有大规模编辑数据集中人类反馈不足的问题,从而提高数据集与人类偏好的一致性。HumanEdit数据集包含了5751张高质量图像对,涵盖了六种不同的编辑指令类型:动作(Action)、添加(Add)、计数(Counting)、关系(Relation)、移除(Remove)和替换(Replace),覆盖了广泛的实际应用场景。- 项目主页:https://viiika.github.io/HumanEdit
- GitHub:https://github.com/viiika/HumanEdit
- 数据集:https://huggingface.co/datasets/BryanW/HumanEdit
例如,我们有一张图片,上面有三只鹿,我们想要通过一个指令“将鹿的数量从3减少到2”,HumanEdit数据集就会提供一个相应的编辑指令和编辑后的图像,以及一个掩码(mask),指示需要编辑的区域。或者,如果我们想要在一张图片上的白色球上添加一只红色的蝴蝶,HumanEdit也会提供这样的编辑指令和结果。
主要功能和主要特点
- 高质量数据:通过多轮质量控制,确保数据的准确性和一致性。
- 多样化和高分辨率源:与MagicBrush等数据集相比,HumanEdit来源更广泛,包含更高分辨率的图像。
- 掩码区分:数据集区分了需要掩码和不需要掩码的图像,以支持不同的微调和评估需求。
- 增加多样性:通过词云、Vendi Score计算、旭日图、河流图和图像对类型的分类,强调了数据集的优越多样性。
- 跨维度分类:通过将编辑任务分类为六个不同的维度,HumanEdit为评估和发展提供了清晰的框架。
工作原理
HumanEdit的构建过程分为四个阶段:
- 标注者培训和选择:通过教程和测验确保标注者的质量。
- 图像选择和质量检查:从Unsplash等来源精心挑选高分辨率图像,并进行质量评估。
- 掩码和生成:标注者使用DALL-E 2平台为选定的图像创建新的编辑指令,定义掩码区域,生成编辑后的图像,并提供结果的描述。
- 审核和数据库纳入:管理员进行两级质量审核和人工反馈,确保编辑后的图像满足质量标准。
具体应用场景
- 图像编辑:在计算机视觉和图形领域,HumanEdit可以用于训练和评估图像到图像合成模型,特别是在需要精确局部编辑的场景中。
- 内容创作:艺术家和设计师可以利用HumanEdit来探索新的创作方法,通过语言指令来修改和创建图像内容。
- 数据集基准:HumanEdit为未来的图像编辑研究提供了一个性能基准,促进了高级图像到图像翻译和编辑模型的发展。
评论0