新型图像处理技术Diffree:根据文本提示,在图像中添加新的对象

厦门大学多媒体可信感知与高效计算教育部重点实验室、上海人工智能实验室OpenGVLab和香港大学推出新型图像处理技术Diffree,它能够根据文本提示,在图像中添加新的对象。这项技术就像是给照片“填空”,在不改变原有背景的情况下,合理地添加新元素。Diffree通过理解文本描述并将其转化为视觉内容,极大地简化了图像编辑过程,让没有专业技能的用户也能创造出高质量的图像作品。

研究团队整理了一个精美的合成数据集OABench,该数据集通过高级的图像修复技术移除了其中的对象。OABench包含了74,000组真实世界的数据元组,包括原始图像、去除对象后的修复图像、对象掩模以及对象描述。Diffree在OABench上使用Stable Diffusion模型加上额外的掩模预测模块进行训练,能够独特地预测新对象的位置,并且仅通过文本指导就能完成对象的添加。

例如,你有一张风景照,但想让照片中的草地上多一只小狗。通常,这需要专业的图像编辑技能,或者用复杂的软件来实现。但Diffree技术让这个过程变得简单,你只需要提供一段描述,比如“在草地上添加一只小狗”,它就能自动在照片中添加一只小狗,而且看起来非常自然,就像原本就在那里一样。

主要功能

Diffree的主要功能是根据文本描述,在图像中添加新的对象。它能够理解文本中的对象属性,并在适当的位置添加这些对象,同时保持背景的一致性和整体的视觉协调性。

主要特点

  1. 无需手动绘制掩码:与需要用户指定添加区域的传统方法不同,Diffree不需要用户手动绘制掩码或进行繁琐的干预。
  2. 背景保持一致性:在添加新对象的同时,能够保持原有图像的背景和视觉上下文不变。
  3. 高成功率:实验表明,Diffree在添加新对象时具有很高的成功率。

工作原理

Diffree基于一种称为“扩散模型”(diffusion model)的深度学习技术,结合了一个额外的对象掩码预测模块(Object Mask Predictor, OMP)。这个模块可以预测新对象的理想位置和形状,并指导图像生成过程。Diffree使用了一个名为OABench的合成数据集进行训练,这个数据集包含了大量的图像和对应的文本描述。

具体应用场景

  • 广告创作:在广告图像中添加产品,使其看起来更吸引人。
  • 虚拟试穿:在用户的照片上添加服装,让用户看到穿上新衣服的效果。
  • 装修可视化:在室内照片上添加家具或装饰品,帮助用户预览装修效果。
  • 艺术创作:艺术家可以使用Diffree在他们的作品中添加元素,探索不同的创意。
0

评论0

没有账号?注册  忘记密码?