来自纽约大学、埃利斯研究所、马里兰大学帕克分校的研究人员推出新型框架CSD,旨在理解和从图像中提取风格描述符,可以实现对图像风格的检索、归因和匹配,特别适用于Stable Diffusion模型。
如何在扩散模型(如Stable Diffusion、DALL-E等)中测量和理解图像的风格相似性。扩散模型是一类生成模型,它们通过学习大量的图像数据集来生成新的图像。这些模型在图形设计和艺术创作中越来越受欢迎,但它们在生成图像时往往会复制训练数据中的特定内容和风格。因此,能够在使用这些生成的图像之前,确定它们的风格特征是否与训练数据中的特定图像相似,变得非常重要。
该团队提出了一个创新的方法来理解和量化图像的风格特征,这对于理解和使用生成模型生成的图像具有重要意义。通过这个框架,可以更好地管理和利用生成模型在艺术和设计领域的潜力。可以帮助艺术家和设计师鉴别所使用的生成图像是否无意中复制了特定的训练数据风格,起到保护原创性和版权的作用
主要功能和特点:
- 风格描述符提取: 论文提出了一个框架,用于从图像中提取风格描述符,这些描述符可以捕捉图像的复杂交互特征,如颜色、纹理、形状等。
- 风格归因数据集: 作者创建了一个新的数据集LAION-Styles,其中包含了与艺术家相关联的图像,用于风格归因。
- 多标签对比学习: 提出了一种多标签对比学习方法,用于从图像中提取风格描述符,并在公共领域数据集上进行了零样本评估。
- 风格归因和匹配分析: 对Stable Diffusion模型中的风格复制进行了定性和定量分析,并提出了艺术家风格被复制的可能性指标。
工作原理:
- 自监督学习: 通过对比自监督学习(SSL)和监督学习相结合的方式,训练模型以提取包含有效风格信息的图像描述符。
- 风格特征提取: 使用视觉变换器(ViT)作为骨干网络,通过特定的风格保留增强方法,提取图像的风格描述符。
- 多标签对比损失: 通过计算图像描述符之间的余弦相似度,并结合地面真实风格标签,定义了多标签对比损失函数来训练模型。
具体应用场景:
- 艺术和设计: 艺术家和设计师可以使用这个框架来分析生成模型是否复制了他们的个人风格,或者如何使用这些模型来创作新的作品。
- 版权和归属: 在商业用途中,可以通过这个框架来确定生成的图像是否与训练数据中的特定图像过于相似,从而避免潜在的版权问题。
- 图像检索和推荐: 在图像数据库中,可以使用这个框架来检索和推荐风格相似的图像,为用户提供更加个性化的视觉内容。
评论0