清华大学开源项目KTransformers突破大模型算力瓶颈：RTX 4090 单卡实现满血版DeepSeek-R1运行

新技术11个月前更新小马良

238 0

在 AI 大模型领域，运行像 DeepSeek-R1 这样的千亿级参数模型一直是个难题。普通用户要么依赖云服务，要么只能运行大幅缩水的本地版本，而租赁服务器的成本也让开发者望而却步。但现在，这一局面正在被打破！

清华大学与趋境科技的突破

本周，清华大学 KVCache.AI 团队与趋境科技联合发布的 KTransformers 开源项目迎来了重大更新。这个项目成功破解了千亿级大模型本地部署的难题，标志着大模型推理从“云端垄断”迈向“普惠化”的重要一步。

GitHub：https://github.com/kvcache-ai/ktransformers

重大突破：24GB 显存运行 DeepSeek-R1 满血版

2月10日：KTransformers 团队在一台仅配备 24GB 显存 + 382GB 内存 的 PC 上成功运行了 DeepSeek-R1 和 V3 的 671B 满血版，推理速度提升了 3~28倍。
2月15日：进一步优化，支持更长的上下文（单卡 24GB 支持 4~8K），并实现 15% 的加速（每秒最多 16 个 Tokens）。

KTransformers 的优势

KTransformers 是一个灵活的、以 Python 为中心的框架，其核心是可扩展性。通过一行代码实现和注入优化模块，用户可以访问兼容 Transformers 的界面，以及符合 OpenAI 和 Ollama 标准的 RESTful API。

技术亮点

单卡运行：首次支持在单张 24GB 显存的消费级显卡（如 RTX 4090D）上运行 DeepSeek-R1/V3 的 671B 参数满血版。
高效推理：预处理速度最高达 286 tokens/s，推理生成速度达 14 tokens/s。
硬件优化：通过 Marlin GPU 算子实现量化矩阵计算，效率提升 3.87倍；CPU 端采用多线程并行和英特尔 AMX 指令集优化，预填充速度较传统方案提升 28倍。
成本降低：整机成本约 2万元，仅为传统 8 卡 A100 方案的 2%。

如何使用 KTransformers？

硬件要求

虽然 KTransformers 让运行大模型变得更加亲民，但仍然有一定硬件门槛：

CPU：英特尔至强 Gold 6454S 1T DRAM（2 个 NUMA 节点）
GPU：RTX 4090D（24GB VRAM）
内存：标准 DDR5-4800 服务器 DRAM（1TB）
CUDA：12.1 或更高版本

安装步骤

1. 安装依赖

对于 Linux-x86_64 系统，运行以下命令安装必要工具：

sudo apt-get update 
sudo apt-get install gcc g++ cmake ninja-build

2. 创建虚拟环境

强烈建议使用 Conda 创建一个包含 Python 3.11 的虚拟环境：

conda create --name ktransformers python=3.11 
conda activate ktransformers

3. 安装 Python 依赖

pip install torch packaging ninja cpufeature numpy

4. 安装 KTransformers

pip install ktransformers --no-build-isolation

5. 快速启动

运行以下命令启动本地聊天界面：

python -m ktransformers.local_chat --model_path <your_model_path> --gguf_path <your_gguf_path> --prompt_file <your_prompt_txt_file> --cpu_infer 65 --max_new_tokens 1000

当看到提示时，按回车加载文本提示文件即可。

实测数据

以下是 RTX 4090D + 双路 Xeon Gold 的实测数据：

任务类型	KTrans V0.3 (6 位专家)	KTrans V0.2 (8 位专家)	llama.cpp (FP16)
8K 上下文预填充	207.20 tokens/s	195.62 tokens/s	7.43 tokens/s
短文本解码	13.69 tokens/s	8.73 tokens/s	4.51 tokens/s
长序列吞吐量	19.8 GB/s	15.2 GB/s	4.8 GB/s