Mugen:基于 Flux 2 VAE 的 SDXL 动漫模型新生,低成本实现高质量角色生成

图像模型5小时前发布 小马良
3 0

Mugen 是开发者 Cabal Research 推出的最新动漫生成模型系列。作为从 SDXL 到 Flux 2 VAE 潜空间转换技术的延续,Mugen 不仅重命名以区别于原始的 NoobAI 模型,更通过额外的 7 个 epoch 训练(总成本不到 8000 美元),在保留原有动漫知识的基础上,显著提升了纹理细节和图案表现力。

  • 模型:https://huggingface.co/CabalResearch/Mugen

这一项目证明了,通过高效的架构迁移和针对性训练,社区驱动的小规模投入也能产出媲美大型商业模型的成果。Mugen 旨在成为本地社区易于上手、易于微调的新一代基础模型。

Mugen:基于 Flux 2 VAE 的 SDXL 动漫模型新生,低成本实现高质量角色生成

核心亮点

1. Flux 2 VAE 带来的画质飞跃

  • 突破 SDXL 限制:传统的 SDXL VAE 在处理复杂纹理和精细图案时往往力不从心。Mugen 基于 Flux 2 VAE,彻底解决了这一瓶颈,生成的图像在皮肤质感、衣物纹理和背景细节上更加锐利自然。
  • 标准兼容:训练过程严格遵循标准习惯,使得 Mugen 可以像普通 SDXL 模型一样被轻松微调(LoRA/Dreambooth),极大地降低了社区二创门槛。

2. 严谨的角色知识基准

为了量化评估模型性能,Cabal Research 开发了内部基准测试:

  • 覆盖范围:涵盖 1815 个 知名角色(主要来自抽卡游戏和虚拟主播)。
  • 评估方法:使用在 120 万张图像上训练的自定义判别模型,计算生成图与参考图的相似度得分
  • 对比结果:即使对比尚未发布的最新 SDXL 强模(Chenkin),Mugen 在角色还原度上也展现出了极强的竞争力。

3. 多样化的模型版本

满足不同用户的需求:

  • Mugen (Base):基础版本,拥有最广泛的通用知识和最高的可塑性。
  • Mugen - Aesthetic:在精选的高质量数据集上轻微微调,输出更具美感,适合直接出图。
  • Mugen - Aesthetic - Anzhc/Selph:针对特定审美偏好进一步微调,风格化更强烈。

已知局限与偏见

  • 数据源偏见:基于 Danbooru 训练,可能继承其常见的标签和数据分布偏见。
  • 色调偏见:Flux 2 VAE 似乎存在整体的**棕色调(Brown Bias)**倾向。
    • 解决方案:在负面提示词中加入 sepiabrown theme 可有效缓解。

推理指南:ComfyUI & A1111 WebUI

由于 Mugen 基于 Flow Matching (类似 Flux/SD3) 而非传统的扩散过程,推理设置与普通 SDXL 模型有所不同。

1. ComfyUI 用户

  • 必备节点:安装 SDXL-Flux2VAE-ComfyUI-Node
    • 该节点会自动修补模型配置,无需手动修改工作流。
    • SwarmUI 用户同样只需安装此节点。
  • 采样设置:必须使用 SD3 采样节点 (因为基于 Flow)。
Mugen:基于 Flux 2 VAE 的 SDXL 动漫模型新生,低成本实现高质量角色生成

2. A1111 WebUI 用户

  • 推荐分支:使用 ReForge 版本(原生支持 Flow 模型)。
    • 注:开发者已提交 PR 以原生支持基于 Flux2VAE 的 SDXL 修改。
  • 预览设置:Flux2VAE 暂无完美预览方法,请在 ReForge 设置中选择 Approx Cheap (PCA 投影),以避免预览报错或显示异常。
  • Adetailer 修复
    • 默认情况下 Adetailer 会丢弃高级采样脚本,导致 RF 失效。
    • 解决方法:在设置中添加 advanced_model_sampling_script,advanced_model_sampling_script_backported,或手动修改 args.py
Mugen:基于 Flux 2 VAE 的 SDXL 动漫模型新生,低成本实现高质量角色生成

🎯 推荐参数 (通用)

参数推荐值备注
采样器 (Sampler)Euler A, Euler, DPM++ SDEWebUI 用户务必选择带 RF 或 Comfy 后缀的版本 (如 Euler A Comfy RF)
步数 (Steps)20 - 28过高收益递减
CFG Scale4 - 7若效果弱可尝试 7-15,但通常低 CFG 更佳
Shift8 - 12Flow 模型的关键参数,影响噪声调度
调度器 (Scheduler)Normal / Simple / SGM Uniform避免使用 Karras 等传统调度器
正面提示词masterpiece, best quality基础质量标签
负面提示词worst quality, normal quality, bad anatomy, sepia必须包含 sepia 以纠正色调
扩展负面(worst quality:1.1), (bad anatomy:1.1), (blurry:1.1), watermark, sepia, (adversarial noise:1.1), jpeg artifacts追求极致画质建议使用长负面

使用建议:如何获得最佳角色一致性?

虽然基准测试仅使用角色触发词进行验证,但在实际生成中:

  • 搭配系列/游戏标签:仅使用角色名可能不够,加上作品名(如 Fate/Grand OrderGenshin Impact)能显著提升一致性。
  • 辅助外貌标签:如果角色还原度不佳,尝试添加具体的发色、瞳色或服饰标签(如 blue hairtwin tails)来引导模型。
© 版权声明

相关文章

暂无评论

none
暂无评论...