LibreFLUX:基于FLUX.1 [schnell]的免费、开源、去蒸馏FLUX 模型

LibreFLUX是基于FLUX.1 [schnell] 的去蒸馏版本,旨在提供完整的 T5 上下文长度支持,使用注意力掩码,恢复无分类器指导,并移除了大部分 FLUX 美学微调/DPO。这些改动使得 LibreFLUX 相对于基础的 FLUX 模型更加灵活,但也牺牲了一些美学效果。

LibreFLUX 的特点

开源与灵活性

  • Apache 2.0 许可:用户可以自由使用、修改和分发 LibreFLUX,无需从 Black Forest Labs 获取商业许可证。
  • 易于微调:虽然 LibreFLUX 的初始美学效果不如基础 FLUX,但其设计使其更容易适应新的数据分布和应用场景。

技术细节

  • 完整的 T5 上下文长度:支持完整的 T5 上下文长度,提高了模型对长文本输入的处理能力。
  • 注意力掩码:通过在注意力过程中屏蔽填充 Token,防止信息泄露,提高模型的性能。
  • 无分类器指导:恢复了无分类器指导,简化了生成过程,但需要为条件和无条件图像生成样本,增加了计算成本。

与 FLUX 系列的对比

  • FLUX.1-dev:蒸馏版本,生成速度快,但需要为条件和无条件图像生成样本。
  • FLUX.1-schnell:进一步蒸馏,生成速度更快,但默认情况下使用 CFG 效果较差。

FLUX 模型的蒸馏与去蒸馏

  • 蒸馏模型:通过在教师模型的输出上训练学生模型,减少模型的复杂性和生成时间。例如,FLUX.1-schnell 只需 4 步条件生成即可获得图像。
  • 去蒸馏模型:恢复原始训练目标,重新训练模型以恢复其完整功能。去蒸馏模型需要更多的训练时间和计算资源,但提供了更高的创造性和灵活性。

注意力掩码的作用

  • T5-XXL 文本模型:FLUX 模型使用 T5-XXL 作为文本编码器,将文本填充到 256(schnell)或 512(dev)个 Token。
  • 信息存储:模型利用填充 Token 存储信息,这可能导致长文本输入的性能下降。
  • 注意力掩码:通过在注意力过程中屏蔽这些填充 Token,防止信息泄露,提高模型的性能和稳定性。

实验观察

  • CFG 比例值:当使用大于 4.0 的 CFG 比例值时,LibreFLUX 和 OpenFLUX.1 模型可能会出现奇怪的阴影或模糊现象。
  • 训练时间:这些模型的训练时间相对较短,可能不足以完全恢复蒸馏前的性能。
0

评论0

没有账号?注册  忘记密码?