llama.cpp
llama.cpp

llama.cpp最新版

官方版无广告211

llama.cpp 是一个轻量、高效的开源 AI 项目,适合在各种硬件上运行 LLM,提供丰富的工具和后端支持,开发者可通过 CLI 和 HTTP 服务器轻松使用。它支持模型微调、量化技术,并与 Hugging Face 和 ModelScope 等平台无缝集成,是构建 AI 应用程序的理想选择。

更新日期:
2025年5月11日
语言:
中文
平台:

373MB0 人已下载 手机查看

llama.cpp 是一个功能强大且高效的开源 AI 项目,专注于在各种硬件平台上实现大语言模型(LLM)的推理。其目标是通过纯 C/C++ 实现,提供最小的设置需求和最先进的性能,适用于本地和云端部署。该项目由 ggml-org 组织维护,社区贡献者众多,GitHub 仓库活跃,适合开发者构建 AI 应用程序或探索 LLM 的潜力。

llama.cpp 的主要目标是启用 LLM 推理,优化在广泛硬件上的性能,包括 Apple Silicon(通过 ARM NEON、Accelerate 和 Metal 框架)、x86(支持 AVX、AVX2、AVX512、AMX)、NVIDIA GPU(自定义 CUDA 内核)、AMD GPU(HIP)、Moore Threads MTT GPU(MUSA)、Vulkan、SYCL 以及 CPU+GPU 混合推理。它支持 1.5-bit 到 8-bit 的整数量化,进一步提升效率和性能。项目是 ggml 库(ggml)开发新功能的主要试验场,体现了其在 AI 社区中的重要性。

核心功能与特性

llama.cpp 提供了丰富的功能,满足开发者多样化的需求。以下是详细的特性总结:

类别详情
模型支持支持基础模型的微调,文本和多模态模型,新增模型指南见 HOWTO-add-model.md
工具与绑定包括 akx/ggify、akx/ollama-dl、crashr/gppm、gpustack/gguf-parser 等工具,以及 Unity 市场中的 Styled Lines 等 UI。
基础设施支持涵盖 Paddler、GPUStack、llama_cpp_canister、llama-swap、Kalavai、llmaz 等项目。
后端支持支持 Metal(Apple Silicon)、BLAS、BLIS、SYCL(Intel、NVIDIA GPU)、MUSA、CUDA、HIP、Vulkan、CANN(Ascend NPU)、OpenCL(Adreno GPU),详情见 build.md
量化技术支持 1.5-bit、2-bit、3-bit、4-bit、5-bit、6-bit、8-bit 整数量化,优化资源使用。

使用方法与工具

llama.cpp 提供了多种使用方式,方便开发者快速上手。以下是主要工具和使用场景:

  • CLI 工具
    • llama-cli 支持对话模式(通过 -cnv 启用,指定模板通过 --chat-template),文本完成(通过 -no-cnv 禁用),自定义语法(通过 --grammar-file)。
    • Bash 补全通过 build/bin/llama-cli --completion-bash > ~/.llama-completion.bash 启用,可添加到 .bashrc 中。
  • HTTP 服务器
    • llama-server 默认运行在 8080 端口,支持多用户(通过 -np 4  -c 16384 配置),推测解码(通过 -md draft.gguf),嵌入(通过 --embedding  --pooling cls),重排序(通过 --reranking)以及语法约束。
  • 性能评估
    • llama-perplexity -m model.gguf -f file.txt 用于测量模型的困惑度。
    • llama-bench -m model.gguf 用于基准测试模型性能。
  • 示例运行
    • 全面示例:llama-run granite-code
    • 最简示例:llama-simple -m model.gguf
  • 模型获取与转换
    • 支持从 Hugging Face(https://huggingface.co)和 ModelScope 获取模型,要求 GGUF 格式,可通过 convert_*.py 脚本转换。

相关软件

Cortex

Cortex - 最新版

Cortex 是一款类似于 Ollama 的开源命令行软件,专为运行大语言模型而设计。它通过简洁的命令行操作,让用户能够快速启动和运行大型语言模型,支持 macOS、Windows 和 Linux 等多种操作系统。
鲸喷

鲸喷 - 最新版

DeepRant(鲸喷)是一款专为游戏玩家量身定制的翻译工具,它不仅解决了语言障碍的问题,还提供了丰富的功能以适应不同的游戏场景。无论您是想与国际玩家交流、参与跨服竞技,还是在团队中更高效地沟通,DeepRant 都能为您提供强大的支持。

暂无评论

none
暂无评论...