局部性从何而来？MIT与丰田研究所揭示扩散模型中的数据驱动机制

79 0

在图像生成领域，扩散模型已成为主流架构之一。其训练过程基于一个理论上的“最优去噪器”——即在给定噪声水平下，能够最小化重建误差的理想函数。有趣的是，这一最优解虽然数学上可定义，却只能复现训练集中的样本，无法创造出新颖内容。

而现实中，像U-Net这样的深层扩散模型却能生成高度逼真且前所未见的图像。这种“超越理论最优”的现象引发了一个关键问题：

为什么深度扩散模型可以突破最优去噪器的限制？

一种流行解释认为，这得益于卷积神经网络（CNN）所具有的归纳偏见（inductive bias），尤其是平移等变性和局部感受野结构，使模型更擅长捕捉图像的空间局部模式。

然而，麻省理工学院与丰田研究所的最新研究《Locality in Image Diffusion Models Emerges from Data Statistics》提出了不同观点。他们通过理论分析与实验验证指出：

图像扩散模型中观察到的“局部性”，并非源于CNN架构的设计偏好，而是自然图像数据本身统计特性的直接反映。

扩散模型的核心思想是逆向去噪：从纯噪声出发，逐步恢复出清晰图像。理论上，在每个去噪步骤中都存在一个闭式最优解——称为最优参数化线性去噪器（Optimal Parameterized Linear Denoiser）。该解由训练数据的协方差结构唯一决定。

但这个“最优”方案有一个致命缺陷：
它仅能在训练集中插值，无法泛化到新样本，因此不具备真正的生成能力。

相比之下，实际使用的深度扩散模型（如基于U-Net或Transformer的架构）尽管并未达到理论最优，却表现出更强的创造性与多样性。

这就引出了核心矛盾：
如果最优解已被数学定义，为何非最优的深度模型反而表现更好？

此前研究推测，U-Net 等模型之所以成功，是因为其卷积结构引入了两种关键先验：

这些先验被认为帮助模型更好地建模图像局部结构，从而超越线性最优解。

作者提出并验证了一个反直觉的观点：

即使不使用CNN，只要数据本身具有空间相关性，任何充分训练的模型都会自发学习出局部敏感性。

换句话说，局部性不是模型强加给数据的约束，而是数据教会模型的结果。

研究人员计算了基于训练数据协方差矩阵的最优线性去噪器，并可视化其“敏感性场”（sensitivity field）——即某个输出像素对所有输入像素的响应权重分布。

结果令人惊讶：即使这是一个全连接、无结构假设的线性模型，其敏感性场仍呈现出明显的局部聚集特征，类似于CNN的感受野。

这说明：局部性已隐含在数据协方差之中。

为了排除架构影响，团队在相同数据集上训练了多种结构不同的模型：

结果显示：尽管初始归纳偏见不同，两类模型在训练后均发展出高度相似的局部敏感性场，且与数据主成分方向高度对齐。

这意味着：无论是否内置局部先验，模型最终都被数据拉向同一行为模式。

进一步分析表明，图像数据的前几个主成分（通过PCA提取）在空间上具有局部支持特性（spatially localized support），并与去噪器的关键滤波方向高度相关。

由此得出结论：

自然图像中像素间的短程强相关性，是驱动去噪器形成局部响应的根本原因。

基于上述洞察，作者构建了一种新的无需训练的分析型去噪器（analytical denoiser），其构造方式如下：

指标	表现
分数预测相关性	在CIFAR-10、CelebA-HQ等多个数据集上，新模型预测的分数与真实U-Net输出的相关性显著高于传统最优线性去噪器
敏感性场匹配度	更好地还原了深度模型的实际感受野结构
图像生成质量	使用该分析模型生成的样本，在视觉合理性与细节保真方面优于基线方法

这表明：仅依靠数据统计特性，就能构建出逼近真实扩散模型行为的解析模型。