PixNerd:无需 VAE,用神经场实现端到端像素级图像生成

图像模型5个月前发布 小马良
259 0

在图像生成领域,扩散模型已成主流,但其典型架构依赖变分自编码器(VAE)将图像压缩至低维潜在空间,再在该空间进行生成。这种“两阶段”范式虽能降低计算负担,却也带来了解码伪影信息损失等固有缺陷。

PixNerd:无需 VAE,用神经场实现端到端像素级图像生成

为突破这一瓶颈,南京大学、字节跳动与新加坡国立大学的研究团队联合提出 PixNerd ——一种全新的纯像素空间扩散变换器(Pixel-space Diffusion Transformer)。该模型完全摒弃 VAE,通过引入神经场(Neural Field)技术,直接在像素空间实现高效、高质量的端到端图像生成。

DatasetModelParamsFIDHuggingFace
ImageNet256PixNerd-XL/16700M2.15HuggingFace
ImageNet512PixNerd-XL/16700M2.84HuggingFace

PixNerd 不仅避免了潜在空间模型的累积误差,还在 ImageNet 和文本到图像生成基准上取得了极具竞争力的结果,重新定义了像素级扩散模型的可能性。

PixNerd:无需 VAE,用神经场实现端到端像素级图像生成

核心创新:用神经场建模像素细节

传统像素空间扩散模型面临两大挑战:

  1. 计算复杂度高:直接处理高分辨率像素序列,导致注意力机制开销巨大。
  2. 高频细节建模困难:难以捕捉纹理、边缘等精细结构。

PixNerd 的核心突破在于:将扩散模型的输出层重构为一个动态神经场

PixNerd:无需 VAE,用神经场实现端到端像素级图像生成

具体而言:

  • 模型主干仍为扩散变换器(Diffusion Transformer),负责全局结构建模。
  • 在最终输出阶段,不直接预测像素值,而是预测一个多层感知机(MLP)的权重。
  • 该 MLP 作为一个坐标到信号的映射函数(即神经场),接收每个像素的局部坐标编码和噪声状态,输出去噪后的像素值。

✅ 优势:神经场能以紧凑的参数化方式捕捉图像的空间连续性与高频细节,显著提升生成质量。

主要特点

🚫 无需 VAE,单阶段端到端训练

PixNerd 彻底取消了预训练 VAE 和潜在空间编码/解码过程,实现:

  • 无信息损失:避免 VAE 压缩带来的模糊与伪影
  • 训练简化:单一模型、单一目标函数,无需分阶段优化
  • 误差隔离:不再受 VAE 解码质量制约

🖼️ 支持任意分辨率生成

得益于神经场的坐标连续性建模能力,PixNerd 可通过坐标插值生成训练分辨率之外的图像。

  • 训练于 256x256 或 512x512
  • 推理时可无缝生成更高或更低分辨率图像
  • 无需微调或级联模型

这一特性使其在实际应用中更具灵活性。

⚙️ 高效计算设计

为应对像素空间的高维挑战,PixNerd 采用多项优化:

  • 大块(Large Patch)处理:降低序列长度
  • 轻量化神经场 MLP:控制参数量与推理延迟
  • Adams-2 阶采样器:在 50 步内高效完成去噪

在保持高质量的同时,显著优于早期像素扩散模型(如 JetFormer)的计算效率。

工作原理简述

  1. 输入编码
    将带噪图像划分为块,提取块级特征,输入扩散变换器主干。
  2. 神经场权重预测
    模型最后一层输出一个小型 MLP 的权重参数(而非像素值)。
  3. 坐标映射与去噪
    对每个像素位置:

    • 生成局部坐标编码
    • 结合当前噪声状态
    • 输入动态 MLP,预测去噪速度
  4. 迭代去噪
    通过多步采样(如 Adams-2),逐步还原清晰图像。

实验结果:性能对标潜在空间模型

PixNerd 在多个权威基准上展现出卓越性能:

基准模型指标结果
ImageNet 256×256PixNerd-XL/16FID2.15
ImageNet 512×512PixNerd-XL/16FID2.84
GenEvalPixNerd-XXL/16总体分数0.73
DPGPixNerd-XXL/16平均分数80.9
  • 在 ImageNet 256 上,FID 2.15 超越了同类像素模型(如 FractalMAR、JetFormer),接近顶级潜在空间模型水平。
  • 在文本到图像任务中,GenEval 与 DPG 分数表明其语义理解与生成质量可与主流潜在扩散模型媲美

与传统范式的对比

特性传统潜在扩散模型PixNerd(纯像素扩散)
是否需要 VAE
训练阶段两阶段(VAE + 扩散)单阶段端到端
信息损失存在(编码-解码)
生成分辨率固定或需微调支持任意分辨率
高频细节依赖 VAE 解码质量神经场直接建模
© 版权声明

相关文章

暂无评论

none
暂无评论...