黑森林实验室发布 FLUX.2 [klein] 9B-KV:多参考图像编辑速度飙升 2.5 倍

图像模型1小时前发布 小马良
0 0

黑森林实验室(Black Forest Labs)今日正式推出 FLUX.2 [klein] 9B-KV,这是其备受赞誉的轻量级图像编辑模型 FLUX.2 [klein] 9B 的专用优化变体。新版本核心引入了 KV 缓存(Key-Value Cache) 技术,专为解决多参考图像编辑中的计算冗余痛点而生,将推理速度提升至原来的 2.5 倍,为实时交互式编辑和高频变体生成树立了新标杆。

  • GitHub:https://github.com/black-forest-labs/flux2/blob/main/docs/flux2_klein_kv_cache.md
  • 模型:https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-kv
  • FP8:https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-kv-fp8

黑森林实验室发布 FLUX.2 [klein]:统一生成与编辑的最快开源模型

黑森林实验室发布 FLUX.2 [klein] 9B-KV:多参考图像编辑速度飙升 2.5 倍

核心突破:告别重复计算,解锁极速编辑

在传统的多参考图像编辑(如换脸、风格迁移、物体替换)中,模型需要在每一个去噪步骤中重新处理所有参考图像的 Token,导致大量算力浪费在不变的数据上。

FLUX.2 [klein] 9B-KV 通过创新的两阶段推理机制彻底改变了这一流程:

  1. 阶段一:KV 提取(Step 0)
    • 执行一次完整的前向传播,处理所有参考图像 Token。
    • 提取并缓存参考图像的键(Key)和值(Value)对。
  2. 阶段二:缓存复用(Step 1-3)
    • 在后续的去噪步骤中,直接复用缓存的 KV 对
    • 仅计算输出图像和文本提示的 Token,完全跳过参考图像的冗余计算。

结果:无论去噪步数多少,参考图像只需处理一次。参考图越多、输出分辨率越低,加速效果越显著。

性能实测:最高 2.66 倍提速

加速比取决于参考图像数量与输出分辨率的比例。以下是官方测试数据(基于 4 步蒸馏推理):

参考图像数量 (1024x1024)输出 512x512输出 768x768输出 1024x1024输出 1440x1440
1 张1.78x1.57x1.40x1.21x
2 张2.16x1.97x1.77x1.46x
3 张2.43x2.21x1.99x1.69x
4 张🚀 2.66x2.44x2.22x1.85x

关键洞察:在处理多张高分辨率参考图生成小尺寸变体时(如快速预览、交互式拖拽),性能提升最为惊人,接近 3 倍 的速度飞跃。

继承全能基因:小身材,大智慧

尽管专注于速度优化,FLUX.2 [klein] 9B-KV 完美继承了原版的强大能力:

  • 统一架构:单一模型支持文生图(Text-to-Image)、多参考编辑(Multi-Reference Editing)。
  • 极速生成:基于 9B 流匹配(Flow Matching)架构,配合 8B Qwen3 文本编码器,仅需 4 步推理 即可实现亚秒级出图。
  • 高质量输出:保持了对复杂提示词的理解力、优秀的文字渲染能力及细腻的画质表现。

应用场景:为交互而生

这项技术特别适合以下场景:

  • 🖌️ 交互式编辑工具:用户拖动参考图或调整参数时,系统能实时反馈生成结果,无延迟卡顿。
  • 🔄 批量变体生成:使用同一组参考图(如角色三视图、产品多角度图)生成大量不同风格或背景的变体。
  • 📱 移动端/边缘部署:显著降低计算负载,使高性能图像编辑在资源受限设备上成为可能。
  • 🎬 视频帧编辑:在视频一致性编辑中,快速处理多帧参考信息。

许可与可用性

  • 授权协议:目前仅限 非商业用途(Non-Commercial Use)。
  • 获取方式:模型权重已发布,开发者可立即集成到 ComfyUI、Diffusers 等主流框架中体验极速编辑。
© 版权声明

相关文章

暂无评论

none
暂无评论...