你是否希望在自己的电脑上轻松运行大语言模型(LLMs),而无需依赖远程服务器?Lemonade 正是为此而生的一个开源项目,它专注于提升本地推理性能,尤其支持 AMD 平台下的 NPU 和 Vulkan GPU 加速。
该项目由 AMD 赞助开发,提供 CLI 命令行工具、API 接口以及图形界面,致力于为用户提供一个“开箱即用”的本地 LLM 使用体验。

官网将其定义为:“Refreshingly fast LLMs on GPUs and NPUs”,强调其在本地运行的速度与效率优势。
为什么选择 Lemonade?
在当前大模型普遍依赖云端部署的背景下,Lemonade 提供了一个轻量级、高性能、且注重隐私的替代方案:
- ✅ 支持多种硬件加速:包括 AMD Ryzen AI 系列 NPU 和 Radeon GPU(通过 Vulkan)
- ✅ 易于使用:提供 GUI、CLI 和 OpenAI 兼容 API
- ✅ 支持主流模型格式:GGUF 和 ONNX
- ✅ 本地化运行:无需联网、无额外费用、保护用户数据隐私
安装方式灵活,适配不同用户需求
Lemonade 提供了多种安装方式,满足从普通用户到开发者的不同需求:
🖥️ 图形界面安装(Windows)
适合不想折腾命令行的用户:
- 访问 GitHub Releases 页面 下载
.exe安装包 - 安装后即可通过内置聊天界面直接交互
🧰 命令行安装(CLI)
适合开发者和高级用户:
pip install lemonade-server
或从源码编译安装,详见官方文档:Install Options
快速上手指南
- 安装完成后启动服务
- 拉取模型(以 Gemma-3-4b-it-GGUF 为例):
lemonade-server pull Gemma-3-4b-it-GGUF - 运行模型:
lemonade-server run Gemma-3-4b-it-GGUF - 访问内置聊天界面 或通过 CLI 进行交互
其他常用命令:
- 列出已支持模型:
lemonade-server list - 源码安装时使用
lemonade-server-dev前缀
支持硬件与模型格式一览
| 硬件类型 | 支持平台 | 操作系统 | 引擎支持 |
|---|---|---|---|
| CPU | 所有平台 | Windows, Linux | OGA、llamacpp、HF |
| GPU | Vulkan | Windows, Linux | ✅(Ryzen AI 7000/8000/300,Radeon 7000/9000) |
| NPU | AMD Ryzen AI 300 | - | ✅ |
✅ 支持模型格式
- GGUF(基于 llama.cpp 的量化模型)
- ONNX(通用神经网络交换格式)
完整模型库详见:Model Documentation
自定义模型可通过模型管理器导入(访问 http://localhost:8000/#model-management)
开放接口,便于集成
Lemonade 提供了兼容 OpenAI 标准的 API 接口,方便开发者接入已有工具链:
- 基础 URL:
http://localhost:8000/api/v1 - 默认 API Key:
lemonade(仅需填写,不用于验证)
这意味着你可以直接使用 openai-python 等客户端库调用本地模型,实现无缝迁移。
此外还提供:
- Lemonade API:高阶 Python API,文档见 lemonade_api.md
- Lemonade CLI:支持多模型混合调用,详见 CLI 文档
未来计划:提升桌面端集成体验
Lemonade 团队正在推进多个增强功能,其中一项关键路线图任务是:
开发原生消息主机,取代当前基于 WebSocket 的桥接机制,以提高与桌面客户端(如 Cursor、Claude Desktop)连接的稳定性与性能。
这将进一步降低本地 AI 工具链的使用门槛,推动更多开发者采用本地运行模式。















