
通往AGI之路
《通往AGI之路》是一个由开发者、学者和有志之士共同参与的开源AI知识库与学习社区,旨在为人工智能(AI)的学习者、实践者和创新者提供全面的学习路径和资源支持。
nanochat 是一个全栈、端到端、极简可黑客的开源项目,让你用约 100 美元在单台 8×H100 GPU 服务器上,从零训练并部署一个类 ChatGPT 的小型语言模型(LLM)。
它包含完整的训练管道:分词 → 预训练 → 微调 → 评估 → 推理 → Web UI,所有代码集中在一个轻量、干净、可读性强的代码库中。
nanochat 是 Eureka Labs 即将推出的课程 LLM101n 的顶石项目,目标是让 LLM 训练变得可负担、可理解、可掌控。
访问在线演示:nanochat.karpathy.ai(模型:d32,32 层 Transformer,1.9B 参数)
git clone https://github.com/karpathy/nanochat
cd nanochat
bash speedrun.sh
建议在
screen中运行以避免断连:screen -L -Logfile speedrun.log -S speedrun bash speedrun.sh
source .venv/bin/activate
python -m scripts.chat_web
http://<your-server-ip>:8000,即可像使用 ChatGPT 一样与你的模型对话。训练报告会生成 report.md,包含评估指标,例如:
| Metric | BASE | MID | SFT | RL |
|---|---|---|---|---|
| ARC-Challenge | – | 0.2875 | 0.2807 | – |
| GSM8K | – | 0.0250 | 0.0455 | 0.0758 |
| MMLU | – | 0.3111 | 0.3151 | – |
| 总耗时 | 3h51m |
只需微调 speedrun.sh:
--depth=26--device_batch_size=16(防 OOM)-n 450)💡 模型规模与数据量需匹配:参数量 × 20 ≈ 所需 token 数。
| 环境 | 支持情况 |
|---|---|
| 8×H100 / A100 | ✅ 完整支持,推荐 |
| 单 GPU | ✅ 自动切换为梯度累积,速度慢 8 倍 |
| <80GB VRAM | ⚠️ 需手动降低 device_batch_size(如 32 → 8) |
| Mac (MPS) | 🔧 实验性支持(见 CPU/MPS PR),使用 --device_type=mps |
| 纯 CPU | 🐢 可运行极小模型,训练极慢 |
github.com 替换为 deepwiki.com)






