突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

图像模型4个月前发布 小马良
219 0

来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队,推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标,成功破解了生成模型领域长期存在的“两难困境”——即迭代扩散模型保真度高但计算成本昂贵,而高效少步模型又受限于质量上限的权衡问题。借助精确的连续时间动态方程,TiM可适配任意步长的转换,真正实现了少步生成与多步生成的无缝衔接。

突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

生成模型的“老难题”:质量与效率的两难抉择

在生成模型领域,长期存在一个根本性矛盾:

  • 迭代扩散模型:虽能凭借多步迭代生成保真度极高的结果,但每一次迭代都需要大量计算支撑,整体成本居高不下,难以满足高效生成的需求;
  • 高效少步模型:虽然大幅降低了计算成本,实现了快速生成,但受限于“直接端点预测”等训练目标的局限性,生成质量存在严格上限,无法与多步模型媲美。

这种质量与效率的冲突,本质上源于传统模型训练目标的单一性——要么聚焦于无穷小动态(PF-ODEs),要么局限于直接预测生成终点,始终无法在两者之间找到灵活平衡。

突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接

TiM的核心突破:以连续时间动态方程实现“无缝切换”

TiM的核心创新在于引入精确的连续时间动态方程,该方程从解析层面定义了任意有限时间间隔内的状态转换规律。这一设计让TiM摆脱了传统模型对固定步长的依赖,能够灵活掌握“从任意状态到任意状态”的转换逻辑,最终实现两大关键突破:

  1. 统一少步与多步生成框架:TiM不再将少步生成与多步生成割裂,而是通过学习整个生成过程的“解流形”,将两者统一在单一模型中。例如在图像生成任务中,既可以用一步生成快速得到高质量图像,也能通过多步细化进一步优化细节,无需切换模型或调整架构。
  2. 质量随步数单调提升:与传统少步模型“步数增加但质量难突破”的局限不同,TiM的生成质量会随着采样预算(即生成步数)的增加而持续提升,真正兼顾了“高效起步”与“高质深化”。

TiM的核心能力:四大功能与四大特点

(一)四大核心功能

  • 任意步长生成:覆盖从单步到多步的全场景需求,无论步长长短,均能稳定输出高质量结果;
  • 高效少步生成:单步生成即可达到行业先进水平,大幅降低计算成本,提升生成效率;
  • 多步细化优化:支持通过多步迭代不断打磨细节,满足对高保真度有极致需求的场景;
  • 超高分辨率生成:原生支持4096×4096分辨率图像生成,在复杂场景下仍能保持清晰细节。

(二)四大突出特点

  • 框架统一化:打破传统模型“少步与多步二选一”的局限,用一套框架解决效率与质量的平衡问题;
  • 步长灵活化:可根据实际需求(如时间限制、质量要求)自由调整生成步长,实现个性化适配;
  • 分辨率高端化:原生分辨率策略保障高分辨率生成效果,突破多数模型在高分辨率下的质量衰减问题;
  • 架构可扩展:训练目标与模型架构的设计具备强扩展性,支持从头训练大规模模型,适配更复杂的生成任务。

工作原理:以“连续时间动态”掌握生成全轨迹

TiM的底层逻辑围绕连续时间动态方程展开:模型的核心训练目标是学习“从任意状态(x_t)转换到前一个状态(x_{t-\Delta t})”的动态规律。

简单来说,传统模型要么只学“微小步长的渐变”,要么只学“从起点到终点的直达”,而TiM则掌握了“任意两个状态之间的转换逻辑”。这种设计让它既能直接完成“一步跨越”(高效少步生成),也能通过“多步连续转换”逐步优化(多步高质生成),从而实现整个生成轨迹的灵活导航。

测试结果:参数更少,性能更优

尽管TiM的参数规模仅为8.65亿,远低于SD3.5(80亿参数)、FLUX.1(120亿参数)等主流模型,但在多项权威测试中均展现出领先性能:

  1. GenEval基准测试:在1-NFE(单步生成)和128-NFE(多步生成)两个维度上,生成质量均超越SD3.5-Large、FLUX.1-Dev等竞品;
  2. MJHQ30K与DPGBench测试:在高分辨率图像生成、多场景适配等维度表现突出,细节还原度和场景合理性均达到行业先进水平;
  3. 高分辨率专项测试:成功生成4096×4096分辨率图像,且在细节丰富度、色彩一致性上无明显衰减,验证了其在高端生成场景的适用性。
突破 SD3.5/FLUX.1!TiM模型实现少步高效与多步高质无缝衔接
© 版权声明

相关文章

暂无评论

none
暂无评论...