基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

Flux衍生2周前发布 小马良
125 0

Chroma 是一个基于 FLUX.1-schnell 的 8.9 亿参数生成模型,完全采用 Apache 2.0 许可证,为开发者和研究者提供一个自由、开放、无审查的工具。无论是用于艺术创作、科学研究还是其他领域,任何人都可以自由使用、修改和扩展这一模型。目前,该模型仍在训练中,开发团队欢迎社区的反馈与建议,以进一步优化其性能。

基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

Chroma 的目标

Chroma 的设计初衷是为用户提供一个可靠的开源选项,支持多样化的生成任务,同时保持完全无审查的理念。以下是 Chroma 的主要目标:

  1. 大规模多样化数据集训练
    • 在 500 万个数据集上进行训练,从 2000 万个样本中精心挑选,涵盖动漫、furry、艺术作品和照片等多种内容类型。
    • 数据集的多样性确保了模型能够生成高质量、多风格的内容,满足不同用户的需求。
  2. 完全无审查
    • Chroma 重新引入了许多被现有模型限制或删除的解剖概念,确保生成内容的真实性和完整性。
    • 这一特性使其成为需要高度自由表达场景的理想选择。
  3. 社区驱动的支持
    • Chroma 致力于为开源社区提供支持,任何开发者都可以在其基础上构建自己的项目,而无需担心企业限制。
基于 FLUX.1-schnell的开源、无审查的生成模型Chroma

如何运行 Chroma 模型

要求

要运行 Chroma 模型,您需要以下组件:

  • ComfyUI 安装:确保已正确安装 ComfyUI。
  • Chroma 检查点:从官方仓库下载最新版本的 Chroma 模型。
  • T5 XXL 或 T5 XXL fp8:两者均可使用。
  • FLUX VAE:用于处理生成模型中的变分自编码器部分。
  • Chroma_Workflow:包含运行 Chroma 所需的工作流程配置。

手动安装(Chroma)

  1. 导航到 ComfyUI 的 ComfyUI/custom_nodes 文件夹。
  2. 克隆 Chroma 的仓库:git clone https://github.com/lodestone-rock/ComfyUI_FluxMod.git
  3. 重启 ComfyUI。如果 ComfyUI 已在运行,请刷新浏览器。

运行模型的方法

  1.  T5_xxl 放入 ComfyUI/models/clip 文件夹。
  2.  FLUX VAE 放入 ComfyUI/models/vae 文件夹。
  3. 将 Chroma 检查点放入 ComfyUI/models/diffusion_models 文件夹。
  4. 在 ComfyUI 中加载 Chroma 工作流程。
  5. 运行工作流程并观察生成结果。

架构修改与优化

为了提升模型的性能和训练效率,Chroma 团队对原始 FLUX 架构进行了多项关键性修改:

12B → 8.9B 参数裁剪

  • 问题背景:原始 FLUX 模型中有 33 亿个参数仅用于编码单个输入向量,这种资源分配显得过于冗余。
  • 解决方案:团队将这部分替换为一个简单的前馈神经网络(FFN),仅使用 2.5 亿个参数完成相同任务。
  • 效果:通过这一裁剪,模型规模从 120 亿参数缩减至 89 亿,同时保持了知识损失最小化。整个裁剪过程在单台 3090 GPU 上仅用了一天时间。

MMDiT 掩码

  • 问题背景:在预训练过程中,模型对填充令牌(如 <pad>)的关注度远高于实际提示信息,导致生成内容模糊或混乱。
  • 解决方案:通过掩码技术屏蔽多余的填充令牌,仅保留一个填充令牌参与训练,从而让模型专注于实际提示信息。
  • 效果:修复后,模型生成的图像保真度显著提升,训练稳定性也得到了增强。

时间步分布优化

  • 问题背景:传统扩散模型通常使用“lognorm”分布随机采样时间步,但这种方法容易忽略高噪声和低噪声区域(尾部),导致训练过程中出现损失尖峰。
  • 解决方案:团队引入了自定义时间步分布函数(如 -x^2),更频繁地采样尾部时间步,确保覆盖所有关键区域。
  • 效果:新分布使模型在训练初期和后期都能更好地应对极端噪声情况,避免了训练失控的问题。

小批量最优传输

  • 数学优化:通过改进配对策略减少“路径歧义”,加速向量场的学习过程。
  • 效果:这一优化显著提升了训练效率,并提高了生成结果的质量。

为什么选择 Chroma?

  1. 完全开源:Chroma 使用 Apache 2.0 许可证,允许任何人自由使用、修改和扩展,没有任何企业限制。
  2. 无审查理念:与其他模型相比,Chroma 提供了一个更加开放的环境,重新引入了缺失的解剖概念,适合需要高度自由表达的应用场景。
  3. 高性能与灵活性:凭借架构优化和训练方法改进,Chroma 在保持较低参数规模的同时,依然能够生成高质量的多样化内容。
  4. 社区驱动:开发团队高度重视用户反馈,并鼓励社区成员参与模型的改进和扩展。
© 版权声明

相关文章

暂无评论

none
暂无评论...