新型图像编辑框架PhotoDoodle:通过文字提示在照片中添加艺术化装饰

图像模型9个月前发布 小马良
284 0

新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat的研究人员推出新型图像编辑框架PhotoDoodle,通过少量样本学习艺术家的独特风格,将装饰元素(如手绘线条、装饰图案等)无缝叠加到照片上,实现艺术化的图像编辑,同时保持与背景的完美一致性,简单来说就是实现“照片涂鸦”(Photo Doodling)。

例如,用户可以上传一张照片,并指示“在女孩周围添加粉色星星效果”或“为建筑添加蓝色发光轮廓”,PhotoDoodle 将根据这些指令生成符合要求的图像。此外,PhotoDoodle 还发布了首个公开的 PhotoDoodle 数据集,包含 300 多对高质量图像,涵盖 6 种艺术风格,为相关研究提供了基准。

主要功能

  • 艺术风格学习:从少量(30-50 对)艺术家提供的前后编辑图像对中学习独特的艺术风格和编辑技巧。
  • 装饰元素添加:根据用户指令在照片上添加装饰性元素,如手绘线条、彩色烟雾效果、流动色块等。
  • 背景一致性保持:在添加装饰元素的同时,严格保持背景图像的完整性和一致性,避免背景失真。
  • 指令驱动编辑:支持通过自然语言指令进行图像编辑,用户只需用文字描述期望的编辑效果。

主要特点

  • 两阶段训练策略
    • 预训练阶段:通过大规模数据训练通用图像编辑模型(OmniEditor),具备强大的文本跟随能力和基础编辑能力。
    • 微调阶段:使用少量艺术家定制的数据集(EditLoRA)对 OmniEditor 进行微调,捕捉特定艺术家的编辑风格。
  • 位置编码重用机制:通过位置编码克隆(Positional Encoding Cloning)确保编辑结果的空间一致性,避免背景失真。
  • 无噪声条件范式:在编辑过程中保持原始图像的无噪声状态,确保高频纹理和细节的保留。
  • 高效风格定制:仅需 30-50 对图像即可实现高效风格定制,显著降低训练成本。

工作原理

  1. 预训练阶段
    • 使用大规模图像编辑数据集(350 万对图像)训练 OmniEditor,使其具备通用的图像编辑能力。
    • OmniEditor 基于扩散变换器(DiT),通过多模态注意力机制将文本描述与图像编辑任务对齐。
    • 引入位置编码克隆机制,确保编辑前后图像的空间一致性。
  2. 微调阶段
    • 使用少量艺术家定制的图像对(20-50 对)对 OmniEditor 进行微调,训练 EditLoRA 模块。
    • EditLoRA 通过低秩适配(LoRA)技术,仅训练少量参数,捕捉特定艺术家的编辑风格。
  3. 推理阶段
    • 输入源图像和文本指令,将源图像编码为条件令牌,与噪声图像令牌结合。
    • 通过多步迭代预测目标图像的潜在表示,最终通过 VAE 解码器生成最终编辑图像。

应用场景

  • 艺术创作:艺术家可以快速生成具有个人风格的图像作品,用于展览、插画或数字艺术创作。
  • 商业设计:广告设计师可以利用 PhotoDoodle 快速生成符合品牌风格的图像素材,用于海报、宣传册等。
  • 社交媒体内容创作:用户可以为个人照片添加有趣的装饰元素,提升照片的艺术感和吸引力。
  • 教育领域:在艺术和设计课程中,教师可以使用 PhotoDoodle 快速生成示例作品,帮助学生理解不同的艺术风格和编辑技巧。
© 版权声明

相关文章

暂无评论

none
暂无评论...