支持GGML和GGUF模型的AI软件KoboldCpp，已支持Flux 和 Stable Diffusion 3.5 模型

557 0

KoboldCpp是一款易于使用的AI文本生成软件，支持GGML和GGUF模型，其灵感来源于原始的KoboldAI。这是由Concedo开发的一个独立的可分发程序，基于llama.cpp构建，并增添了多功能的KoboldAI API接口、额外的格式支持、Stable Diffusion图像生成、语音转文本、向后兼容性，以及一个精美的用户界面。该界面具备持久化故事、编辑工具、保存格式、记忆功能、世界信息、作者注释、角色设定、场景等功能，包含了KoboldAI和KoboldAI Lite所提供的所有特性。

GitHub：https://github.com/lostruins/koboldcpp

支持GGML和GGUF模型的AI软件KoboldCpp，已支持Flux 和 Stable Diffusion 3.5 模型

使用方法（Windows平台）

下载：访问最新版本页面下载最新的 koboldcpp.exe。
运行：双击 koboldcpp.exe 运行软件
GUI 设置：首次运行时，默认会显示一个包含部分可配置设置的 GUI。通常情况下，您只需选择预设和 GPU 层数。更多设置信息请参见 koboldcpp.exe --help
连接：默认情况下，您可以连接到 http://localhost:5001

版本选择

标准版：koboldcpp.exe（包含 CUDA 支持）
无 CUDA 版：koboldcpp_nocuda.exe（适用于不需要 CUDA 的用户）
旧 CPU 版：koboldcpp_oldcpu.exe（适用于旧 CPU 和英伟达显卡用户）
CUDA 12 版：koboldcpp_cu12.exe（适用于较新的英伟达显卡，更大且稍快）
Linux 版：选择适当的 Linux 二进制文件（非 .exe）
MacOS 版：koboldcpp-mac-arm64（适用于 M1、M2、M3 用户）
AMD 版：尝试 YellowRoseCx 的 fork 中的 koboldcpp_rocm

获取 GGUF 模型

KoboldCpp 使用 GGUF 模型。这些模型不随软件一同提供，但您可以在以下地方下载：

Hugging Face：在 huggingface.co 上搜索 "GGUF"，可以找到许多兼容的 .gguf 格式模型。
模型转换：如果您有其他格式的模型，可以使用提供的工具将其转换为 GGUF 格式。运行 convert-hf-to-gguf.py 进行转换，然后运行 quantize_gguf.exe 对结果进行量化。

性能提升

GPU 加速：使用带有英伟达显卡的 Windows 时，可以通过添加 --usecublas（仅限 Nvidia）或 --usevulkan（任何 GPU）标志获得 CUDA 支持。
GPU 层卸载：使用 --gpulayers 将模型层卸载到 GPU，以提高生成速度。根据您的 GPU 内存情况调整层数。
增加上下文大小：使用 --contextsize 增加上下文大小，允许模型读取更多文本。同时，您可能需要在 KoboldAI Lite UI 中增加最大上下文。
旧 CPU 兼容性：如果遇到问题，可以尝试添加 --noavx2 标志以非 AVX2 兼容模式运行，或关闭 mmap（使用 --nommap）或减少 --blasbatchssize（设置为 -1 以避免批处理）。

1.78版本新增功能

Flux 和 Stable Diffusion 3.5 模型支持：图像生成已更新为新的架构支持，并进行了额外增强。支持 FP16 和 FP8 safetensor 模型，或 GGUF 模型。提供了一体式模型和单独加载选项。
大图像处理：支持更大的图像处理，带有 VAE 平铺，1024x1024 应该适用于 SDXL 和 Flux。
调试模式：新增了调试模式，打印 XTC 的惩罚。
强制重新处理提示：新增了 --nofastforward 标志，强制在每次请求时完全重新处理提示，以获得更一致的结果。
CLBlast 支持：CLBlast 支持已降级为“兼容模式”，不再推荐使用。
身份提供者支持：新增了常见的身份提供者支持。
性能和稳定性改进：修复了多个问题，提高了性能和稳定性。