基于扩散模型的图像处理系统PromptFix：能够根据人类的指令执行各种图像处理任务，如上色、提升照片亮度、去除水印、抠图、去雾和去模糊等

新技术5个月前发布小马良

249 0

扩散模型结合语言模型在图像生成任务中展现了卓越的可控性，能够根据人类指令进行图像处理。然而，由于缺乏多样化的指令遵循数据，模型在识别和执行用户定制指令方面仍面临挑战，尤其是在低级任务中。此外，扩散过程的随机性也影响了图像生成和编辑任务中细节的保留。

PromptFix框架的提出

为了解决这些问题，罗切斯特大学和微软研究院的研究人员提出了PromptFix，它是一个基于扩散模型的图像处理系统，能够根据人类的指令执行各种图像处理任务。这个系统特别擅长理解和执行用户自定义的编辑指令，并在图像编辑和恢复任务中保持生成图像的详细保存。例如，PromptFix可以理解用户指令“消除图片上的水印”或“给这张黑白照片上色”，然后自动执行相应的图像处理任务，输出符合指令的结果图像。

项目主页：https://www.yongshengyu.com/PromptFix-Page
GitHub：https://github.com/yeates/PromptFix

基于扩散模型的图像处理系统PromptFix：能够根据人类的指令执行各种图像处理任务，如上色、提升照片亮度、去除水印、抠图、去雾和去模糊等

主要贡献

构建大规模指令遵循数据集：研究团队构建了一个涵盖广泛图像处理任务的大规模数据集，包括低级任务（如颜色校正、噪声减少）、图像编辑和对象创建。这一数据集的多样性有助于模型学习更广泛的指令，提高其适应性和灵活性。
高频引导采样方法：为了克服扩散过程中的随机性，研究人员提出了一种高频引导采样方法。该方法通过显式控制去噪过程，确保生成图像在未处理区域保留高频细节，从而在需要精细控制的任务中表现出色。
辅助提示适配器：研究团队设计了一个辅助提示适配器，利用现有的视觉语言模型（VLMs）来增强输入文本提示的质量。这不仅提高了模型对用户指令的理解能力，还增强了其在新任务上的泛化能力。

主要功能：

理解用户指令：PromptFix能够理解用户自定义的编辑指令，并执行相应的图像处理任务。
高频引导采样：通过高频引导采样方法，控制去噪过程并保留未处理区域的高频细节。
辅助提示适配器：使用视觉语言模型（VLMs）增强文本提示，提高模型的任务泛化能力。

主要特点：

大规模指令遵循数据集：构建了一个包含约100万输入-目标-指令三元组的大规模数据集，涵盖多种低级任务。
高频信息保留：确保在VAE解码过程中保持图像细节。
零样本能力：在盲恢复和组合任务中表现出色，无需特定任务的先验知识。

工作原理：

PromptFix的工作原理包括以下几个步骤：

数据集构建：收集图像对，并使用GPT-4生成多样化的文本指令。
高频引导采样：使用低通滤波器计算保真度约束，并在推理时集成VAE跳过连接特征。
辅助提示模块：通过VLMs生成辅助提示，提供退化图像的语义描述和缺陷描述，增强图像生成的控制性。

实验结果

实验结果显示，PromptFix在多种图像处理任务中均优于先前的方法。此外，该模型在推理效率上与基线模型相当，并在盲修复和组合任务中展现出优越的零样本能力。

具体应用场景：

PromptFix可以应用于多种图像处理场景，包括但不限于：

图像修复：如去除图像中的水印、修复老照片等。
图像编辑：根据用户指令对图像进行颜色化、风格转换等编辑操作。
图像恢复：如去雾、去雪、低光照增强等图像质量提升任务。
对象创建和移除：在图像中添加或移除特定对象。

新技术 # PromptFix # 图像处理 # 扩散模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

阿里推出角色视频合成框架MIMO：允许用户对视频中的人物进行替换

阿里推出角色视频合成框架MIMO：允许用户对视频中的人物进行替换

新技术 # MIMO # 角色视频合成 # 阿里巴巴

6个月前

03120

适用于FLUX 和 SD3.5模型的新采样器Style-Friendly SNR：更好地捕捉独特的风格，并生成风格对齐度更高的图像

适用于FLUX 和 SD3.5模型的新采样器Style-Friendly SNR：更好地捕捉独特的风格，并生成风格对齐度更高的图像

新技术 # Style-Friendly SNR # 采样器

4个月前

03080

DragAnything：视频生成中任意对象的运动控制

DragAnything：视频生成中任意对象的运动控制

新技术 # DragAnything # 视频生成 # 运动控制

1年前

04930

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

Stability AI 推出一种基于大规模 Transformer 架构的新型音频编码模型TAAE

新技术 # Stability AI # TAAE

3个月前

01450

暂无评论

none

暂无评论...