1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

当前,大规模多模态生成模型(如 Qwen-Image、Z-Image)在图像与视频生成上展现出惊人能力,但其推理效率仍严重受限——标准扩散或流匹配模型通常需 40–100 次函数评估(NFE)才能生成一张图像。这使得它们难以部署在实时或资源受限场景。

为加速推理,研究者提出了多种“少步生成”方法,但现有方案普遍陷入三重困境

  • 依赖冻结的教师模型(如一致性蒸馏),限制灵活性;
  • 引入对抗训练与判别器(如 DMD2、SANA-Sprint),导致训练不稳定、显存爆炸;
  • 在极低步数(<4 NFE)下质量显著下降,难以实用。

近日,Inclusion AI、上海创智学院、西湖大学与浙江大学联合提出 TwinFlow —— 一个无需教师模型、无需判别器、仅用单模型即可实现1步高质量生成的新框架,为少步生成提供了更简洁、可扩展的路径。

1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

TwinFlow 的核心思想:用“孪生轨迹”实现自对抗

TwinFlow 的关键创新在于 “孪生轨迹”(Twin Trajectory) 机制。

传统流匹配模型定义时间区间为 $ t \in [0,1] $,从噪声($t=0$)逐步映射到真实数据($t=1$)。
TwinFlow 则将时间轴对称扩展至 $ t \in [-1,1] $

  • 正向轨迹($t > 0$):将噪声映射为真实数据(常规生成路径)
  • 负向轨迹($t < 0$):将同一噪声映射为“伪”数据(即模型当前能力下的不完美输出)

模型通过最小化两条轨迹在速度场(velocity field)上的差异 $\Delta v$,实现自我校正。
这相当于在模型内部构建了一个自监督的对抗信号——无需外部判别器,也无需冻结的教师模型。

1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

训练目标结合了标准多步生成损失与速度匹配损失,通过简单混合即可优化。

三大优势:简洁、高效、可扩展

维度传统方法(DMD2 / 一致性模型)TwinFlow
是否需判别器是(1–2个)❌ 否
是否需冻结教师模型❌ 否
大模型训练可行性显存溢出风险高✅ 支持全参数训练(如 20B 模型)
1-NFE 生成质量显著下降接近 100-NFE 原始模型

1. 极简架构,降低训练复杂度

仅需一个可训练模型,避免维护多个网络(生成器+判别器+教师),大幅减少 GPU 内存占用。

2. 1-NFE 生成媲美百步模型

在 Qwen-Image-20B 上,TwinFlow 仅用 1 次函数评估,即可在 GenEval(0.86)和 DPG-Bench 上匹配原始 100-NFE 模型的性能(0.87),推理成本降低 100 倍

3. 真正适用于大模型

现有方法(如 VSD、SiD、DMD)因需多模型并行,在 20B 级别常因显存不足失败。TwinFlow 的单模型设计使其首次实现 20B 级别全参数少步蒸馏

实际进展:Qwen-Image 与 Z-Image 极速版发布

研究团队已基于 TwinFlow 框架推出两款高效生成模型:

  • TwinFlow-Qwen-Image-v1.0:1–2 步生成高质量图像,适用于多模态推理与内容创作
  • Z-Image-Turbo 优化版:进一步压缩推理步骤,提升生成速度

这些模型表明,少步生成不再是小模型的专利,大模型同样可以做到“快而准”。

1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型
© 版权声明

相关文章

暂无评论

none
暂无评论...