新型多层透明图像生成方法ART：通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像

298 0

微软亚洲研究院、清华大学、北京大学和中国科学技术大学的研究人员推出新型多层透明图像生成方法Anonymous Region Transformer (ART) ，通过全局文本提示和匿名区域布局直接生成具有多个透明图层的图像。与传统的基于语义布局的图像生成方法不同，ART 通过匿名区域布局让生成模型自主决定每个区域的视觉内容，从而显著减少人工标注的工作量，并提高生成图像的效率和质量。

项目主页：https://art-msra.github.io
GitHub：https://github.com/microsoft/art-msra
Demo：http://20.65.136.27:8060

例如，假设需要生成一张包含多个图层的海报，其中包含文本、装饰图案和背景。传统的语义布局方法需要为每个区域指定具体的内容和位置，而 ART 只需提供一个全局文本提示（如“海报主题为冬季特惠，包含装饰边框和姜饼人图案”）和匿名区域布局（即矩形区域的位置），模型即可自主生成每个区域的内容，最终合成一张完整的海报。

主要功能

多层透明图像生成：ART 能够直接从全局文本提示和匿名区域布局生成具有多个透明图层的图像，支持多达 50+ 个图层的高效生成。
匿名区域布局：通过匿名区域布局，模型可以自主决定每个区域的视觉内容，无需人工为每个区域指定语义标签。
高效计算：通过区域裁剪机制，ART 仅处理每个匿名区域内的视觉标记，显著减少了计算成本，相比全图注意力方法速度提升超过 12 倍。
高质量多层透明图像自编码器：ART 提出了一种高质量的多层透明图像自编码器，能够直接对多层图像进行编码和解码，支持透明度的精确控制。
图层编辑与交互：ART 支持对生成的图层进行单独编辑，用户可以通过修改提示来调整特定图层的内容，同时保持其他图层不变。

主要特点

自主视觉规划：ART 基于全局提示和匿名区域布局，让生成模型自主决定每个区域的视觉内容，减少了人工标注的工作量。
高效率与扩展性：通过区域裁剪和注意力机制的优化，ART 能够高效生成大量透明图层，适用于复杂的多层图像生成任务。
全局一致性：ART 通过生成全局参考图像和背景图像，确保不同图层之间的视觉一致性，避免了传统方法中常见的图层冲突问题。
灵活的图层控制：用户可以通过修改全局提示或匿名区域布局来动态调整生成的图像内容，支持实时交互和个性化编辑。
数据驱动的语义理解：ART 的匿名区域布局利用了模型对全局提示的语义理解能力，类似于认知科学中的“模式理论”（Schema Theory），能够根据上下文推断每个区域的语义标签。

工作原理

匿名区域布局：
- 用户提供一个全局文本提示和匿名区域布局（即矩形区域的位置）。
- 模型通过全局提示激活的先验知识，自主决定每个匿名区域的语义内容。
多层透明图像自编码器：
- 自编码器将多层透明图像编码为一系列潜在视觉标记，并通过解码器将这些标记还原为透明图层。
- 通过将透明度信息嵌入 RGB 通道，支持对多层透明图像的直接编码和解码。
匿名区域 Transformer：
- ART 同时生成全局参考图像、背景图像和多个透明前景图层。
- 使用布局条件的多层 3D RoPE（旋转位置嵌入）来编码视觉标记的相对位置信息，确保图层之间的全局一致性。
匿名区域布局规划器：
- 基于用户提供的全局文本提示，预测一组匿名边界框，支持灵活的图层布局生成。