突破 SD3.5/FLUX.1！TiM模型实现少步高效与多步高质无缝衔接

233 0

来自香港中文大学MMLab、上海人工智能实验室和悉尼大学的研究团队，推出了一款名为Transition Models (TiM) 的新型生成模型。该模型通过重构生成学习的核心目标，成功破解了生成模型领域长期存在的“两难困境”——即迭代扩散模型保真度高但计算成本昂贵，而高效少步模型又受限于质量上限的权衡问题。借助精确的连续时间动态方程，TiM可适配任意步长的转换，真正实现了少步生成与多步生成的无缝衔接。

GitHub：https://github.com/WZDTHU/TiM
模型：https://huggingface.co/collections/GoodEnough/tim-68ba6b13a78a9ce6e1233302

生成模型的“老难题”：质量与效率的两难抉择

在生成模型领域，长期存在一个根本性矛盾：

迭代扩散模型：虽能凭借多步迭代生成保真度极高的结果，但每一次迭代都需要大量计算支撑，整体成本居高不下，难以满足高效生成的需求；
高效少步模型：虽然大幅降低了计算成本，实现了快速生成，但受限于“直接端点预测”等训练目标的局限性，生成质量存在严格上限，无法与多步模型媲美。

这种质量与效率的冲突，本质上源于传统模型训练目标的单一性——要么聚焦于无穷小动态（PF-ODEs），要么局限于直接预测生成终点，始终无法在两者之间找到灵活平衡。

TiM的核心突破：以连续时间动态方程实现“无缝切换”

TiM的核心创新在于引入精确的连续时间动态方程，该方程从解析层面定义了任意有限时间间隔内的状态转换规律。这一设计让TiM摆脱了传统模型对固定步长的依赖，能够灵活掌握“从任意状态到任意状态”的转换逻辑，最终实现两大关键突破：

统一少步与多步生成框架：TiM不再将少步生成与多步生成割裂，而是通过学习整个生成过程的“解流形”，将两者统一在单一模型中。例如在图像生成任务中，既可以用一步生成快速得到高质量图像，也能通过多步细化进一步优化细节，无需切换模型或调整架构。
质量随步数单调提升：与传统少步模型“步数增加但质量难突破”的局限不同，TiM的生成质量会随着采样预算（即生成步数）的增加而持续提升，真正兼顾了“高效起步”与“高质深化”。

TiM的核心能力：四大功能与四大特点

（一）四大核心功能

任意步长生成：覆盖从单步到多步的全场景需求，无论步长长短，均能稳定输出高质量结果；
高效少步生成：单步生成即可达到行业先进水平，大幅降低计算成本，提升生成效率；
多步细化优化：支持通过多步迭代不断打磨细节，满足对高保真度有极致需求的场景；
超高分辨率生成：原生支持4096×4096分辨率图像生成，在复杂场景下仍能保持清晰细节。

（二）四大突出特点

框架统一化：打破传统模型“少步与多步二选一”的局限，用一套框架解决效率与质量的平衡问题；
步长灵活化：可根据实际需求（如时间限制、质量要求）自由调整生成步长，实现个性化适配；
分辨率高端化：原生分辨率策略保障高分辨率生成效果，突破多数模型在高分辨率下的质量衰减问题；
架构可扩展：训练目标与模型架构的设计具备强扩展性，支持从头训练大规模模型，适配更复杂的生成任务。

工作原理：以“连续时间动态”掌握生成全轨迹

TiM的底层逻辑围绕连续时间动态方程展开：模型的核心训练目标是学习“从任意状态(x_t)转换到前一个状态(x_{t-\Delta t})”的动态规律。

简单来说，传统模型要么只学“微小步长的渐变”，要么只学“从起点到终点的直达”，而TiM则掌握了“任意两个状态之间的转换逻辑”。这种设计让它既能直接完成“一步跨越”（高效少步生成），也能通过“多步连续转换”逐步优化（多步高质生成），从而实现整个生成轨迹的灵活导航。

测试结果：参数更少，性能更优

尽管TiM的参数规模仅为8.65亿，远低于SD3.5（80亿参数）、FLUX.1（120亿参数）等主流模型，但在多项权威测试中均展现出领先性能：

GenEval基准测试：在1-NFE（单步生成）和128-NFE（多步生成）两个维度上，生成质量均超越SD3.5-Large、FLUX.1-Dev等竞品；
MJHQ30K与DPGBench测试：在高分辨率图像生成、多场景适配等维度表现突出，细节还原度和场景合理性均达到行业先进水平；
高分辨率专项测试：成功生成4096×4096分辨率图像，且在细节丰富度、色彩一致性上无明显衰减，验证了其在高端生成场景的适用性。