首尔大学研究团队提出推理加速框架 RALU：无需训练的混合分辨率采样，加速DIT架构模型推理最高达7倍

新技术8个月前发布小马良

111 0

DIT架构模型凭借其卓越的可扩展性，正逐步取代传统的 U-Net 架构，成为高保真图像与视频生成的主流模型。然而，其高昂的计算成本严重制约了在移动端、实时应用和大规模部署中的实用性。

为解决这一瓶颈，首尔大学研究团队提出 RALU（Region-Adaptive Latent Upsampling） —— 一种无需训练、即插即用的推理加速框架，通过沿空间维度引入混合分辨率策略，显著降低计算开销，同时最大限度保留生成质量。

GitHub：https://github.com/ignoww/RALU

该方法在 FLUX 模型上实现 7.0倍加速，在 Stable Diffusion 3 上实现 3.0倍加速，且视觉质量下降极小，为扩散变换器的实用化落地提供了高效解决方案。

问题背景：DiT 的性能瓶颈

尽管 DiT 在生成质量与模型扩展性方面表现优异，但其全分辨率自注意力机制导致计算复杂度随图像尺寸呈平方增长。现有加速方法多聚焦于时间维度优化（如缓存特征、跳步采样），对空间冗余的关注不足。

RALU 的核心洞察是：

并非所有图像区域都需要同等精度的早期计算。

例如，边缘、纹理密集区易出现伪影，需尽早高分辨率处理；而平坦背景区域可在低分辨率下完成大部分去噪过程。

技术创新：三阶段混合分辨率采样

RALU 将去噪过程分为三个阶段，实现计算资源的动态分配：

1. 低分辨率去噪（Low-Res Denoising）

在 1/4 分辨率下完成前半段扩散去噪；
快速捕捉全局语义结构（如构图、主体位置）；
显著减少注意力计算量。

2. 区域自适应上采样（Region-Adaptive Upsampling）

自动识别边缘与高频区域（如轮廓、发丝、文字）；
对这些区域提前上采样至全分辨率，避免低分辨率下引入锯齿与模糊；
其余区域仍保持低分辨率继续去噪。

✅ 优势：精准投放算力，防止关键细节丢失。

3. 全分辨率细化（Full-Res Refinement）

在后期将剩余低分辨率潜在变量上采样；
完成最终的细节优化与一致性融合。

整个过程形成一个动态、自适应的空间计算流，兼顾效率与保真度。

核心机制：噪声-时间步重调度（NT-DM）

在不同分辨率间切换时，潜在空间的噪声分布会发生变化，可能导致生成不稳定或伪影。

为此，RALU 引入 Noise-Timestep Rescheduling with Distribution Matching (NT-DM)：

根据目标分辨率调整噪声注入强度；
重新调度扩散时间步，使不同阶段的噪声水平平滑过渡；
确保跨分辨率生成的连贯性与稳定性。

该机制无需额外训练，完全基于推理时调度实现。

主要特点

特性	说明
无需训练	可直接应用于预训练 DiT 模型，零成本集成
空间维度优化	弥补现有时间维度加速方法的不足
区域自适应	智能识别关键区域，优先上采样
高质量保持	FID、NIQE、CLIP-IQA 等指标显示质量损失极小
与缓存技术兼容	可与 Fast-DiT、SPEEDUP 等缓存方法叠加使用

测试结果：高效且稳定

模型	加速比	质量变化
FLUX	7.0×	FID 轻微上升，NIQE 与 CLIP-IQA 基本不变
Stable Diffusion 3	3.0×	视觉质量保持优秀，细节清晰

💡 在与缓存技术（如 KV Cache）结合后，总加速比进一步提升，推理延迟显著降低，适用于实时生成、视频合成等高吞吐场景。

新技术 # DiT架构模型 # RALU # 首尔大学

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

基于扩散模型的无需反转的人像风格化框架ZePo：在无需任何模型微调的情况下，快速生成具有特定艺术风格的肖像图像

基于扩散模型的无需反转的人像风格化框架ZePo：在无需任何模型微调的情况下，快速生成具有特定艺术风格的肖像图像

新技术 # ZePo # 人像风格化

2年前

05480

连续3D词（Continuous 3D Words）：通过文本提示来精细控制图像生成过程中的多个属性

连续3D词（Continuous 3D Words）：通过文本提示来精细控制图像生成过程中的多个属性

新技术 # AI绘画 # Continuous 3D Words # 连续3D词

2年前

06990

通用图像超分辨率智能体4KAgent：将任意类型的低分辨率图像（包括自然图像、卫星图像、医学图像、AI生成内容等）提升至4K分辨率

通用图像超分辨率智能体4KAgent：将任意类型的低分辨率图像（包括自然图像、卫星图像、医学图像、AI生成内容等）提升至4K分辨率

新技术 # 4KAgent # 图像超分辨率

8个月前

01890

DAEDAL：无需训练的动态长度生成，释放扩散大模型新潜力

DAEDAL：无需训练的动态长度生成，释放扩散大模型新潜力

新技术 # DAEDAL # 扩散大模型

7个月前

02810

暂无评论

none

暂无评论...