Anthropic 近日正式开源了一项重要的研究工具——运算电路追踪(Circuit Tracing)系统,帮助研究人员深入理解大语言模型的内部工作机制。

该工具支持主流开放权重模型(如 Gemma 和 Llama 系列),并整合于 Neuronpedia 平台,提供交互式前端界面,用户可生成、可视化并分享模型在生成特定输出时的归因图(Attribution Graphs),从而推动 AI 模型的可解释性研究向前迈进一大步。
为什么需要电路追踪?
随着语言模型规模不断扩大,其推理过程也日益复杂。然而,当前我们对模型“如何做出决策”的理解,远远落后于其实际能力的发展。
过去,这类研究多集中在封闭环境或少数机构内部,限制了外部社区的参与与验证。此次 Anthropic 的开源举措,正是为了打破这一壁垒,让更多研究人员能够:
- 观察模型内部的运作路径
- 分析参数和特征值之间的互动关系
- 识别关键节点、潜在偏差或异常行为

🔍 电路追踪的核心功能
✅ 自动生成归因图
通过配套函式库,研究人员可在支持的模型上自动构建归因图,记录模型在生成输出时的关键计算路径。目前支持的模型包括:
- Gemma-2-2b
- Llama-3.2-1b
- 其他主流开源权重模型(持续扩展中)
这些图谱将展示模型在处理输入提示时,哪些神经元被激活、哪些参数被调用、以及它们是如何一步步组合形成最终输出的。
✅ 图像化探索与交互分析
所有生成的归因图都可通过 Neuronpedia 前端平台进行浏览、注解和分享。平台还提供了多个示例笔记本(Notebook),展示了模型在执行:
- 多步骤推理任务
- 多语言转换场景
时的内部行为变化,鼓励用户尝试不同提示词,比较模型反应,拓展对模型机制的理解边界。
✅ 实验驱动的研究方式
研究人员还可手动修改某些节点或特征值,观察模型输出的变化,从而验证假设、发现隐藏模式,甚至改进模型安全性与公平性。
🧩 Neuronpedia:一个开放的模型分析平台
除了提供电路追踪工具外,Anthropic 还与 Decode Research 团队合作,推出 Neuronpedia 平台,作为归因图的集中展示与协作空间。
平台亮点包括:
- 交互式图形界面:轻松放大、缩放、搜索特定节点
- 标注与分享功能:便于团队协作与知识积累
- 预设案例库:涵盖多种模型、任务与提示语组合
- 未分析归因图集合:供社区共同探索和研究
未来,平台将持续更新更多模型和分析工具,成为开放语言模型研究的重要基础设施。
📌 此次开源内容一览
| 类别 | 内容 |
|---|---|
| 工具库 | 支持主流模型的电路追踪库 |
| 分析脚本 | 示例代码与归因图生成流程说明 |
| 数据集 | 包含 Gemma-2-2b 和 Llama-3.2-1b 的归因图样例 |
| 前端平台 | Neuronpedia 提供交互式浏览体验 |
此外,研究团队已上传大量尚未分析的归因图,欢迎社区成员提交新发现和改进建议。
💬 Anthropic 的愿景
Anthropic CEO Dario Amodei 表示:
“语言模型的可解释性已成为整个行业亟需解决的核心问题。我们希望通过开源这些工具,让更广泛的社区参与进来,加速我们对 AI 内部机制的理解。”
此次发布的电路追踪工具,标志着 Anthropic 在模型透明化方向迈出的重要一步,也为学术界和工业界的研究者提供了一个强大的新武器,去探索语言模型背后的真正“思维过程”。
🚀 如何开始使用?
你可以通过以下方式接入电路追踪项目:
- 访问 Neuronpedia 平台:https://neuronpedia.org
- 查看 GitHub 代码库:https://github.com/safety-research/circuit-tracer















