开发者42lux推出了一款名为flux ultimate的LoRa模型,旨在解决Flux [dev]和schnell在高分辨率图像生成中常见的棋盘格和条纹伪影问题。这款LoRa模型能够显著提升图像生成质量,初始生成分辨率可达3MP,图生图(img2img)可达6MP。
原生高分辨率生成
配合这款LoRa模型,开发者还发布了相应的ComfyUI工作流。通过该工作流,用户可以直接生成3MP图像,并通过高分辨率修复功能达到接近5MP的原生效果,无需进行繁琐的分块缩放操作。在启用Torch Compile的4090 GPU上,生成3MP图像大约需要35秒,生成6MP图像大约需要95秒。
针对伪影的优化
Flux [dev]在生成超过2MP分辨率的图像时容易出现伪影。为了解决这个问题,开发者在工作流程中添加了一个特殊的节点,该节点负责对高分辨率进行采样计划归一化,有效缓解了伪影问题。
LoRa强度与效果:精细控制生成效果
flux ultimate LoRa模型提供不同强度设置,以满足不同的生成需求:
- 低强度(0.15): 主要优化高分辨率噪声调度,提升图像清晰度。
- 中等强度(0.42): 可用于修复面部或其他皮肤细节,有效消除Flux图像中常见的塑料感。
- 高强度(0.8–1): 虽然可以直接用于生成,但可能会导致风格偏向写实。不过,高强度设置有效地解决了“flux下巴”这一典型问题。
ComfyUI工作流中的关键节点:提升高分辨率生成体验
为了应对高分辨率生成带来的挑战,开发者设计了几种提升体验(QoL)的自定义节点:
- Model Sampling Flux Normalized节点: 该节点对sigma调度进行归一化,从而有效支持更高分辨率的生成。
- 空潜在选择器: 用于优化分辨率大小。
- Flux Highres Fix Scaler: 用于自动缩放并注入噪声。
- 集成标记计数器的文本框: 方便用户监控和管理文本提示的长度。
文本提示长度的建议:避免不必要的结果
为了获得最佳效果,建议将CLIP-L标记保持在77以下,T5-XXL标记保持在256以下,虽然512也能正常工作。超出这些限制可能会导致不理想的结果,例如模型变得过于字面化,并过度依赖T5-XXL中的较长提示。
采样器设置:谨慎调整
采样器设置较为精细,建议用户仅在充分了解其作用的情况下进行调整,尤其是在使用高分辨率修复采样器和调度器时。
详细设置参数:
- UltimateAtHome LoRa: 该LoRa模型倾向于写实风格。建议强度约为0.25,主要用于解决高分辨率采样中的噪声调度问题。在0.5–1的范围内,还可以有效纠正flux皮肤和下巴伪影。
- ModelSamplingFluxNormalized和CLIPTextEncodeFlux: ModelSamplingFlux的行为和guidance类似于正常的flux版本。推荐的guidance值范围在2.5–4.2之间。
- PAG Attention: 较高的PAG值可以增强整体细节。建议值为1.75,但不建议超过3。
- LyingSigmaSampler: 较高的值可以细化较小的局部细节。建议不超过-0.1。
- FluxHighresFixScaler: 此设置用于缩放并注入噪声,允许用户选择所需的放大方法和要应用的噪声量。如果用户注意到高分辨率修复中存在残留噪声(例如,斑驳或不均匀的背景),则需要调整此参数。
- MultiplySigmas: 这类似于Lying Sigma Sampler,但用于高分辨率修复推理。
硬件要求:
该工作流在6MP分辨率下勉强适合16GB的VRAM和32GB系统内存。
- Ada Lovelace架构显卡(如4xxxx系列): 建议使用“fp8_e4m3fn_fast”以及Torch Compile。但由于许多用户在使用Torch Compile时遇到问题,因此基本工作流中未包含此项。
- Ampere架构显卡(如3xxxx系列): 建议使用GGUF量化,否则可能会持续遇到内存不足(OOM)的问题。
性能测试(4090):
无编译:
- 3MP:85秒
- 6MP:220秒
有编译:
- 3MP:30秒
- 6MP:95秒
评论0