llama.cpp最新版

官方版无广告243

llama.cpp 是一个轻量、高效的开源 AI 项目，适合在各种硬件上运行 LLM，提供丰富的工具和后端支持，开发者可通过 CLI 和 HTTP 服务器轻松使用。它支持模型微调、量化技术，并与 Hugging Face 和 ModelScope 等平台无缝集成，是构建 AI 应用程序的理想选择。

更新日期：

2025年5月11日

分类标签：

AI助手llama.cpp大语言模型

语言：

中文

平台：

373MB0 人已下载手机查看

llama.cpp 是一个功能强大且高效的开源 AI 项目，专注于在各种硬件平台上实现大语言模型（LLM）的推理。其目标是通过纯 C/C++ 实现，提供最小的设置需求和最先进的性能，适用于本地和云端部署。该项目由 ggml-org 组织维护，社区贡献者众多，GitHub 仓库活跃，适合开发者构建 AI 应用程序或探索 LLM 的潜力。

llama.cpp 的主要目标是启用 LLM 推理，优化在广泛硬件上的性能，包括 Apple Silicon（通过 ARM NEON、Accelerate 和 Metal 框架）、x86（支持 AVX、AVX2、AVX512、AMX）、NVIDIA GPU（自定义 CUDA 内核）、AMD GPU（HIP）、Moore Threads MTT GPU（MUSA）、Vulkan、SYCL 以及 CPU+GPU 混合推理。它支持 1.5-bit 到 8-bit 的整数量化，进一步提升效率和性能。项目是 ggml 库（ggml）开发新功能的主要试验场，体现了其在 AI 社区中的重要性。

核心功能与特性

llama.cpp 提供了丰富的功能，满足开发者多样化的需求。以下是详细的特性总结：

类别	详情
模型支持	支持基础模型的微调，文本和多模态模型，新增模型指南见 HOWTO-add-model.md。
工具与绑定	包括 akx/ggify、akx/ollama-dl、crashr/gppm、gpustack/gguf-parser 等工具，以及 Unity 市场中的 Styled Lines 等 UI。
基础设施支持	涵盖 Paddler、GPUStack、llama_cpp_canister、llama-swap、Kalavai、llmaz 等项目。
后端支持	支持 Metal（Apple Silicon）、BLAS、BLIS、SYCL（Intel、NVIDIA GPU）、MUSA、CUDA、HIP、Vulkan、CANN（Ascend NPU）、OpenCL（Adreno GPU），详情见 build.md。
量化技术	支持 1.5-bit、2-bit、3-bit、4-bit、5-bit、6-bit、8-bit 整数量化，优化资源使用。

使用方法与工具

llama.cpp 提供了多种使用方式，方便开发者快速上手。以下是主要工具和使用场景：

CLI 工具：
- llama-cli 支持对话模式（通过 -cnv 启用，指定模板通过 --chat-template），文本完成（通过 -no-cnv 禁用），自定义语法（通过 --grammar-file）。
- Bash 补全通过 build/bin/llama-cli --completion-bash > ~/.llama-completion.bash 启用，可添加到 .bashrc 中。
HTTP 服务器：
- llama-server 默认运行在 8080 端口，支持多用户（通过 -np 4 和 -c 16384 配置），推测解码（通过 -md draft.gguf），嵌入（通过 --embedding 和 --pooling cls），重排序（通过 --reranking）以及语法约束。
性能评估：
- llama-perplexity -m model.gguf -f file.txt 用于测量模型的困惑度。
- llama-bench -m model.gguf 用于基准测试模型性能。
示例运行：
- 全面示例：llama-run granite-code。
- 最简示例：llama-simple -m model.gguf。
模型获取与转换：
- 支持从 Hugging Face（https://huggingface.co）和 ModelScope 获取模型，要求 GGUF 格式，可通过 convert_*.py 脚本转换。