对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型

图像模型8个月前发布 小马良
237 0

传统的自回归图像生成方法(如VQGAN)通常按照光栅扫描(raster scan)顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大,从而影响生成效果。例如,当生成一张256×256像素的图像时,光栅扫描顺序会在每行结束时跳到下一行的开头,导致相邻令牌之间的空间关系被破坏。

为了解决这一问题,北大信科与小米大模型团队提出了一种新型的自回归图像生成框架——DAR(Diagonal Snake-like Order)。DAR通过采用对角扫描顺序来生成图像令牌,确保相邻索引的令牌在空间上保持接近,同时允许因果注意力机制从更广泛的方向收集信息。

主要功能

  1. 高质量图像生成
    • DAR能够生成高质量、高分辨率的图像。
    • 在256×256 ImageNet基准测试中,DAR达到了1.37的FID分数,超越了所有先前的自回归图像生成方法。
  2. 方向感知能力
    • 通过引入4D-RoPE(四维旋转位置嵌入)和方向嵌入,DAR能够有效处理生成方向的频繁变化,从而更好地捕捉图像的二维空间结构。
  3. 多尺度模型
    • DAR提出了从485M到2.0B参数规模不等的多种模型,以满足不同应用场景的需求。

主要特点

  1. 对角扫描顺序
    • 与传统的光栅扫描顺序不同,DAR采用对角扫描顺序排列图像令牌,使得相邻索引的令牌在空间上保持接近,从而提高了位置嵌入的准确性。
  2. 方向感知模块
    • DAR引入了4D-RoPE和方向嵌入,这些模块能够增强模型对生成方向变化的适应能力,使得模型在处理频繁变化的生成方向时更加高效。
  3. 基于码本的图像令牌嵌入
    • DAR利用图像令牌器的码本作为图像令牌嵌入,并冻结这些参数,从而充分利用图像令牌器的表示能力。

工作原理

  1. 对角扫描顺序
    • DAR从图像的左上角开始,沿着45度对角线方向生成图像令牌,交替采用从左下到右上和从右上到左下的两种模式。这种顺序使得相邻令牌在空间上保持接近,同时允许模型从更广泛的方向收集信息。
  2. 4D-RoPE
    • DAR将每个令牌的位置定义为当前令牌的位置和下一个令牌的位置的组合,通过修改RoPE机制,将这两个位置的信息注入到注意力矩阵中,从而增强模型对生成方向的感知能力。
  3. 方向嵌入
    • DAR引入了方向嵌入,并将其与类别嵌入相结合,用于计算AdaLN(自适应层归一化)中的缩放和平移参数,进一步增强模型对方向变化的适应能力。
  4. 基于码本的图像令牌嵌入
    • DAR直接使用图像令牌器的码本作为图像令牌嵌入,并冻结这些参数,然后通过一个MLP(多层感知机)将嵌入的维度与变换器的输入维度对齐,从而充分利用图像令牌器的表示能力。

性能与展望

小米大模型团队表示,DAR在256×256的ImageNet基准测试中取得了1.37的FID分数,刷新了当前同类技术的最好成绩(SoTA)。这一成果不仅展示了DAR在高质量图像生成方面的强大能力,还为未来的研究提供了新的方向。

小米官方表示将进一步支持更灵活的多种分辨率图像生成。鉴于DAR与LLM的训练和推理方式高度兼容,小米大模型团队还将持续探索更加统一的多模态理解与生成技术方案。

© 版权声明

相关文章

暂无评论

none
暂无评论...