黑森林实验室(Black Forest Labs)今日正式推出 FLUX.2 [klein] 9B-KV,这是其备受赞誉的轻量级图像编辑模型 FLUX.2 [klein] 9B 的专用优化变体。新版本核心引入了 KV 缓存(Key-Value Cache) 技术,专为解决多参考图像编辑中的计算冗余痛点而生,将推理速度提升至原来的 2.5 倍,为实时交互式编辑和高频变体生成树立了新标杆。
- GitHub:https://github.com/black-forest-labs/flux2/blob/main/docs/flux2_klein_kv_cache.md
- 模型:https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-kv
- FP8:https://huggingface.co/black-forest-labs/FLUX.2-klein-9b-kv-fp8
![黑森林实验室发布 FLUX.2 [klein] 9B-KV:多参考图像编辑速度飙升 2.5 倍](https://pic.sd114.wiki/wp-content/uploads/2026/03/1773338443-1773338443-FLUX.webp)
核心突破:告别重复计算,解锁极速编辑
在传统的多参考图像编辑(如换脸、风格迁移、物体替换)中,模型需要在每一个去噪步骤中重新处理所有参考图像的 Token,导致大量算力浪费在不变的数据上。
FLUX.2 [klein] 9B-KV 通过创新的两阶段推理机制彻底改变了这一流程:
- 阶段一:KV 提取(Step 0)
- 执行一次完整的前向传播,处理所有参考图像 Token。
- 提取并缓存参考图像的键(Key)和值(Value)对。
- 阶段二:缓存复用(Step 1-3)
- 在后续的去噪步骤中,直接复用缓存的 KV 对。
- 仅计算输出图像和文本提示的 Token,完全跳过参考图像的冗余计算。
结果:无论去噪步数多少,参考图像只需处理一次。参考图越多、输出分辨率越低,加速效果越显著。
性能实测:最高 2.66 倍提速
加速比取决于参考图像数量与输出分辨率的比例。以下是官方测试数据(基于 4 步蒸馏推理):
| 参考图像数量 (1024x1024) | 输出 512x512 | 输出 768x768 | 输出 1024x1024 | 输出 1440x1440 |
|---|---|---|---|---|
| 1 张 | 1.78x | 1.57x | 1.40x | 1.21x |
| 2 张 | 2.16x | 1.97x | 1.77x | 1.46x |
| 3 张 | 2.43x | 2.21x | 1.99x | 1.69x |
| 4 张 | 🚀 2.66x | 2.44x | 2.22x | 1.85x |
关键洞察:在处理多张高分辨率参考图生成小尺寸变体时(如快速预览、交互式拖拽),性能提升最为惊人,接近 3 倍 的速度飞跃。
继承全能基因:小身材,大智慧
尽管专注于速度优化,FLUX.2 [klein] 9B-KV 完美继承了原版的强大能力:
- 统一架构:单一模型支持文生图(Text-to-Image)、多参考编辑(Multi-Reference Editing)。
- 极速生成:基于 9B 流匹配(Flow Matching)架构,配合 8B Qwen3 文本编码器,仅需 4 步推理 即可实现亚秒级出图。
- 高质量输出:保持了对复杂提示词的理解力、优秀的文字渲染能力及细腻的画质表现。
应用场景:为交互而生
这项技术特别适合以下场景:
- 🖌️ 交互式编辑工具:用户拖动参考图或调整参数时,系统能实时反馈生成结果,无延迟卡顿。
- 🔄 批量变体生成:使用同一组参考图(如角色三视图、产品多角度图)生成大量不同风格或背景的变体。
- 📱 移动端/边缘部署:显著降低计算负载,使高性能图像编辑在资源受限设备上成为可能。
- 🎬 视频帧编辑:在视频一致性编辑中,快速处理多帧参考信息。
许可与可用性
- 授权协议:目前仅限 非商业用途(Non-Commercial Use)。
- 获取方式:模型权重已发布,开发者可立即集成到 ComfyUI、Diffusers 等主流框架中体验极速编辑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















