FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本:降低对于显存的需求

近期Shakker Labs发布了FLUX.1-dev-ControlNet-Union-Pro-2.0,但原版模型对于显存要求过高,于是就有开发者推出了FP8 量化版本。这不是一个经过微调的模型,而是对原始 BFloat16 模型直接量化为 FP8 格式,以优化推理性能。

FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本:降低对于显存的需求

量化详情

该模型已从原始 BFloat16 格式量化为 FP8 格式,使用 PyTorch 的原生 FP8 支持。以下是具体细节:

  • 量化技术:原生 FP8 量化
  • 精度:E4M3 格式(4 位指数,3 位尾数)
  • 使用的库:PyTorch 内置 FP8 支持
  • 数据类型torch.float8_e4m3fn
  • 原始模型:BFloat16 格式(Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0
  • 模型大小缩减:比原始模型小约 50%

FP8 量化的优势包括

  • 减少内存使用:模型大小比 BFloat16/FP16 小约 50%
  • 更快的推理:在支持 FP8 的硬件上可能提升速度
  • 最小的质量损失:经过仔细校准的量化过程以保留输出质量

重要说明:这是对 Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro-2.0 的直接量化,保留了原始模型的所有功能,未进行微调或额外训练。

关键说明

与 Shakker-Labs/FLUX.1-dev-ControlNet-Union-Pro 相比:

  • 移除模式嵌入,模型大小更小。
  • 在 Canny 和姿势控制上有所改进,提供更好的控制和美学效果。
  • 增加对软边缘的支持,移除对瓦片(tile)的支持。

模型卡片

  • 架构:此 ControlNet 包含 6 个双块和 0 个单块,模式嵌入已被移除。
  • 训练细节
    • 使用包含 2000 万张高质量通用和人体图像的数据集,从头训练 30 万步。
    • 训练分辨率:512x512,格式为 BFloat16。
    • 批次大小:128。
    • 学习率:2e-5。
    • 引导尺度:从 [1, 7] 中均匀采样。
    • 文本丢弃比率:0.20。
  • 支持的控制模式:包括 Canny、软边缘、深度、姿势、灰度。您可以像使用普通 ControlNet 一样使用它。
  • 联合使用:此模型可与其他 ControlNet 联合使用。
© 版权声明

相关文章

暂无评论

none
暂无评论...