清华大学开源项目KTransformers突破大模型算力瓶颈:RTX 4090 单卡实现满血版DeepSeek-R1运行

新技术4天前更新 小马良
28 0

在 AI 大模型领域,运行像 DeepSeek-R1 这样的千亿级参数模型一直是个难题。普通用户要么依赖云服务,要么只能运行大幅缩水的本地版本,而租赁服务器的成本也让开发者望而却步。但现在,这一局面正在被打破!

清华大学与趋境科技的突破

本周,清华大学 KVCache.AI 团队与趋境科技联合发布的 KTransformers 开源项目迎来了重大更新。这个项目成功破解了千亿级大模型本地部署的难题,标志着大模型推理从“云端垄断”迈向“普惠化”的重要一步。

清华大学开源项目KTransformers突破大模型算力瓶颈:RTX 4090 单卡实现满血版DeepSeek-R1运行

重大突破:24GB 显存运行 DeepSeek-R1 满血版

  • 2月10日:KTransformers 团队在一台仅配备 24GB 显存 + 382GB 内存 的 PC 上成功运行了 DeepSeek-R1 和 V3 的 671B 满血版,推理速度提升了 3~28倍
  • 2月15日:进一步优化,支持更长的上下文(单卡 24GB 支持 4~8K),并实现 15% 的加速(每秒最多 16 个 Tokens)。

KTransformers 的优势

KTransformers 是一个灵活的、以 Python 为中心的框架,其核心是可扩展性。通过一行代码实现和注入优化模块,用户可以访问兼容 Transformers 的界面,以及符合 OpenAI 和 Ollama 标准的 RESTful API。

技术亮点

  1. 单卡运行:首次支持在单张 24GB 显存的消费级显卡(如 RTX 4090D)上运行 DeepSeek-R1/V3 的 671B 参数满血版。
  2. 高效推理:预处理速度最高达 286 tokens/s,推理生成速度达 14 tokens/s
  3. 硬件优化:通过 Marlin GPU 算子实现量化矩阵计算,效率提升 3.87倍;CPU 端采用多线程并行和英特尔 AMX 指令集优化,预填充速度较传统方案提升 28倍
  4. 成本降低:整机成本约 2万元,仅为传统 8 卡 A100 方案的 2%
清华大学开源项目KTransformers突破大模型算力瓶颈:RTX 4090 单卡实现满血版DeepSeek-R1运行

如何使用 KTransformers?

硬件要求

虽然 KTransformers 让运行大模型变得更加亲民,但仍然有一定硬件门槛:

  • CPU:英特尔至强 Gold 6454S 1T DRAM(2 个 NUMA 节点)
  • GPU:RTX 4090D(24GB VRAM)
  • 内存:标准 DDR5-4800 服务器 DRAM(1TB)
  • CUDA:12.1 或更高版本

安装步骤

1. 安装依赖

对于 Linux-x86_64 系统,运行以下命令安装必要工具:

sudo apt-get update 
sudo apt-get install gcc g++ cmake ninja-build

2. 创建虚拟环境

强烈建议使用 Conda 创建一个包含 Python 3.11 的虚拟环境:

conda create --name ktransformers python=3.11 
conda activate ktransformers

3. 安装 Python 依赖

pip install torch packaging ninja cpufeature numpy

4. 安装 KTransformers

pip install ktransformers --no-build-isolation

5. 快速启动

运行以下命令启动本地聊天界面:

python -m ktransformers.local_chat --model_path <your_model_path> --gguf_path <your_gguf_path> --prompt_file <your_prompt_txt_file> --cpu_infer 65 --max_new_tokens 1000

当看到提示时,按回车加载文本提示文件即可。


实测数据

以下是 RTX 4090D + 双路 Xeon Gold 的实测数据:

任务类型 KTrans V0.3 (6 位专家) KTrans V0.2 (8 位专家) llama.cpp (FP16)
8K 上下文预填充 207.20 tokens/s 195.62 tokens/s 7.43 tokens/s
短文本解码 13.69 tokens/s 8.73 tokens/s 4.51 tokens/s
长序列吞吐量 19.8 GB/s 15.2 GB/s 4.8 GB/s
© 版权声明

相关文章

暂无评论

none
暂无评论...