nanochat

5个月前发布 73 00

nanochat 是一个全栈、端到端、极简可黑客的开源项目，让你用约 100 美元在单台 8×H100 GPU 服务器上，从零训练并部署一个类 ChatGPT 的小型语言模型（LLM）。

所在地：

美国

收录时间：

2025-10-18

其他站点:

打开网站手机查看

爱学习 # ChatGPT # nanochat # 小型语言模型

nanochat

nanochat

nanochat 是一个全栈、端到端、极简可黑客的开源项目，让你用约 100 美元在单台 8×H100 GPU 服务器上，从零训练并部署一个类 ChatGPT 的小型语言模型（LLM）。

它包含完整的训练管道：分词 → 预训练 → 微调 → 评估 → 推理 → Web UI，所有代码集中在一个轻量、干净、可读性强的代码库中。

nanochat 是 Eureka Labs 即将推出的课程 LLM101n 的顶石项目，目标是让 LLM 训练变得可负担、可理解、可掌控。

最终效果预览

访问在线演示：nanochat.karpathy.ai（模型：d32，32 层 Transformer，1.9B 参数）

在 38B tokens 上训练约 33 小时（8×H100），总成本约 $800
性能略优于 2019 年的 GPT-2，但远逊于 GPT-4/5
行为“天真”、常幻觉、像幼儿园孩子——但完全属于你，可随意修改、重训、调试

快速启动（$100 版本）

在云平台（如 Lambda Labs）启动一台 8×H100 节点（约 $24/小时）
克隆仓库并运行 speedrun 脚本（全程约 4 小时）：

git clone https://github.com/karpathy/nanochat
cd nanochat
bash speedrun.sh

建议在 screen 中运行以避免断连：
screen -L -Logfile speedrun.log -S speedrun bash speedrun.sh

训练完成后，启动 Web UI：

source .venv/bin/activate
python -m scripts.chat_web

访问 http://<your-server-ip>:8000，即可像使用 ChatGPT 一样与你的模型对话。

训练报告会生成 report.md，包含评估指标，例如：

Metric	BASE	MID	SFT	RL
ARC-Challenge	–	0.2875	0.2807	–
GSM8K	–	0.0250	0.0455	0.0758
MMLU	–	0.3111	0.3151	–
总耗时	3h51m

更大模型（$300 / $1000 级别）

$300 级（d26）：12 小时训练，略超 GPT-2
$1000 级（d32+）：约 41 小时，作为整数预算参考

只需微调 speedrun.sh：

增加 --depth=26
减小 --device_batch_size=16（防 OOM）
下载更多数据分片（如 -n 450）

💡 模型规模与数据量需匹配：参数量 × 20 ≈ 所需 token 数。

硬件与兼容性

环境	支持情况
8×H100 / A100	✅ 完整支持，推荐
单 GPU	✅ 自动切换为梯度累积，速度慢 8 倍
<80GB VRAM	⚠️ 需手动降低 `device_batch_size`（如 32 → 8）
Mac (MPS)	🔧 实验性支持（见 CPU/MPS PR），使用 `--device_type=mps`
纯 CPU	🐢 可运行极小模型，训练极慢

代码与可维护性

极简设计：无复杂配置、无工厂模式、无巨型 if-else
可黑客性强：45 个文件，约 8,300 行代码，330KB 可打包为单提示（适合 LLM 分析）
便于提问：推荐使用 DeepWiki（将 GitHub URL 中 github.com 替换为 deepwiki.com）

数据统计

相关导航

automate-faceless-content

automate-faceless-content

“无真人出镜”（faceless）视频已成为 YouTube、TikTok 等平台的主流内容形式——教育科普、财经解读、AI 工具评测、自动化教程等类型大量采用此模式。其优势显而易见：无需出镜、可批量生产、易于自动化。

OpenClaw 101

OpenClaw 101 是一个开源的 OpenClaw 资源聚合站，旨在帮助中文用户快速上手 OpenClaw —— 全球最热门的开源 AI 私人助理平台 (136k+ ⭐)。

Awesome Repositories Collection

Awesome Repositories Collection

一个精心策划的多语言精选工具、实用程序和技术资源合集，专为开发人员、系统管理员和研究人员设计。此仓库汇集了经过实战检验的开源项目，涵盖开发工具、AI/ML、系统监控、安全、容器化和自动化等领域。每项工具均基于活跃维护、清晰文档和实际适用性进行挑选。

awesome-LLM-resources

awesome-LLM-resources

号称是全世界最好的LLM资料总结（多模态生成、Agent、辅助编程、AI审稿、数据处理、模型训练、模型推理、o1 模型、MCP、小语言模型、视觉语言模型）

DeepLearning

DeepLearning.AI 是一个在线教育平台，专注于人工智能（AI）和机器学习（ML）课程，由行业先驱吴恩达创立。其课程旨在帮助用户掌握 AI 技能，内容涵盖基础知识到高级应用，适合初学者和有经验的从业者。课程通常包括视频讲座、编程练习和测验，部分课程提供专项证书。

Kuse AI

Kuse是一个专为工作和学习环境设计的集成AI平台，配备最新的AI模型，帮助您提升生产力。在Kuse的无边画布上，您可以利用AI的内容生成能力、全面的网页信息搜索能力，以及内容分析处理能力，在日常工作和学习中完成各种任务和头脑风暴。

2233.ai

2233.ai提供了一个便捷、安全且经济实惠的解决方案，让用户能够体验到原生的ChatGPT Plus和Claude Pro服务。同时，通过合理选择网络工具和使用API等方式，也可以在一定程度上改善使用体验，避免常见的网络和账号问题。

Kagi News

Kagi推出的AI新闻聚合站Kagi News，此站点基于一个简单原则：理解世界需要倾听世界的声音。每天，我们的系统阅读数千个社区精选的 RSS 源，这些源来自不同观点和视角的出版物。然后，我们使用 AI 将海量信息提炼成一份全面的每日简报，同时清楚地引用来源。

暂无评论

none

暂无评论...