
“曾几何时,前沿 AI 研究是由肉体计算机在进食、睡眠、娱乐以及偶尔通过声波互连在‘小组会议’仪式中同步的间隙完成的。那个时代早已一去不复返。如今,研究完全是在天空中的计算集群巨型结构上运行的自主 AI 智能体集群的领域……这个仓库讲述的是一切是如何开始的。”
—— Andrej Karpathy, 2026 年 3 月
如果你还在苦哈哈地手动修改 Python 代码、调整超参数、尝试新的神经网络架构,那么 Andrej Karpathy 深夜发布的这个项目可能会让你感到“背脊发凉”又兴奋不已。

autoresearch,一个仅由 630 行代码 构成的单文件奇迹,正在重新定义 AI 研究的范式:不再是人类训练模型,而是人类指挥 AI 去训练和优化模型。
核心理念:Prompt 即源代码
在传统的 AI 研究中,研究人员是“工匠”,亲手打磨每一行代码。而在 autoresearch 构建的新世界中,研究人员变成了“指挥官”。
- 旧范式:人类阅读论文 -> 人类修改
train.py-> 人类运行实验 -> 人类分析结果 -> 循环。 - 新范式:人类编写
program.md(指令) -> AI 智能体修改train.py-> AI 运行实验 (5 分钟) -> AI 分析结果 -> AI 决定保留或回滚 -> 循环。
核心逻辑极其简单却强大:
- 你给 AI 一个真实的 LLM 训练环境。
- 你告诉 AI:“去改改训练代码,看看能不能让模型效果更好。”
- AI 收到指令,自动修改
train.py,跑一次 5 分钟的训练。 - 如果验证损失 (
val_bpb) 下降,AI 保留修改;如果变差,AI 丢弃修改并尝试新方案。 - 如此循环往复,通宵达旦。
当你早上醒来,迎接你的是一份厚厚的实验日志,以及一个可能比你昨晚睡前更聪明的模型。
架构解密:极简主义的胜利
Karpathy 将该项目压缩到了极致,整个仓库核心只有三个文件,分工明确,逻辑清晰:
| 文件 | 角色 | 谁来修改? | 功能描述 |
|---|---|---|---|
prepare.py | 基石 | ❌ 不可修改 | 负责常量定义、数据下载、BPE 分词器训练及数据加载。它是固定的实验环境。 |
train.py | 试验场 | 🤖 AI 智能体 | 包含完整的 GPT 模型、优化器 (Muon + AdamW) 和训练循环。架构、超参数、批量大小等一切皆可由 AI 自由调整。 |
program.md | 指挥官 | 👨💻 人类 | 智能体的“大脑”与“指令集”。人类通过迭代此文件,优化 AI 的研究策略、思维链和探索方向。 |
关键设计决策
- 单文件修改原则:限制 AI 仅能修改
train.py。这不仅降低了 AI 犯错的概率,也让人类审查差异(Diff)变得异常轻松。 - 固定时间预算 (5 分钟):无论你的硬件如何(前提是单卡 NVIDIA GPU),每次实验严格限制为 5 分钟挂钟时间。
- 优势:确保了不同架构、不同超参数之间的实验结果具有横向可比性。
- 效率:每小时可进行约 12 次实验,一晚(8 小时)可完成近 100 次自主迭代。
- 统一度量衡:使用
val_bpb(Validation Bits Per Byte) 作为唯一指标。该指标与词表大小无关,使得不同架构的模型能在同一标准下公平竞技。
⚡ 快速上手:5 分钟启动你的自主实验室
该项目依赖极简,仅需单块 NVIDIA GPU(已在 H100 测试)、Python 3.10+ 和 uv 包管理器。
第一步:环境准备
# 1. 安装 uv (极速 Python 包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh
# 2. 克隆项目并同步依赖
git clone <repo_url> && cd autoresearch
uv sync
# 3. 准备数据 (一次性,约 2 分钟)
uv run prepare.py
# 4. 手动验证训练 (约 5 分钟)
uv run train.py
如果上述命令运行无误,恭喜你,你的“自主科研实验室”已就绪。
第二步:唤醒智能体
打开你的 Claude Code、Cursor 或其他 AI 编程助手,指向该项目目录,并输入以下 Prompt:
“你好,请仔细阅读
program.md。让我们开始一个新的自主实验周期。首先检查环境设置,然后开始第一轮迭代。”
接下来,你可以去睡觉了。让 AI 去折腾 train.py,去尝试新的激活函数,去调整学习率调度器,去重构注意力机制。
🧠 未来展望:研究范式的转移
autoresearch 不仅仅是一个玩具 demo,它揭示了 AI 发展的一个临界点:
- 核心竞争力变迁:未来的 AI 研究员,核心竞争力可能不再是手写 CUDA 内核或推导数学公式,而是谁能写出更好的 Prompt,谁能设计出更高效的“研究组织代码” (
program.md),谁能调教出更聪明、更具创造力的 AI 智能体。 - Prompt 即源代码:在这个新范式中,自然语言指令成为了真正的“源代码”,而 Python 代码只是 AI 生成的中间产物。
- 黑盒与可解释性:正如 Karpathy 在虚构的 2026 年寄语中所言,当代码演进到第 10,205 代,或许连人类都无法理解其中的奥妙。但这正是进化的代价与魅力。
⚠️ 注意事项
- 硬件限制:目前代码主要针对 NVIDIA GPU 优化。虽然理论上支持 CPU/MPS,但为了保持代码精简,作者暂未内置相关回退方案(参考父项目
nanochat可实现)。 - 实验性质:这是一个演示项目,旨在验证“AI 自主研究”的可行性。生产环境中的大规模训练仍需严谨的工程化支持。
- 安全权限:运行自主 Agent 时,建议限制其文件系统访问权限和网络访问权限,防止意外操作。
数据统计
相关导航


Agentset

PDF Craft

Ai2 Paper Finder

Sign

GitPodcast

Stax






