Anthropic 开源新一代电路追踪工具：揭开大语言模型“黑箱”的关键一步

425 0

Anthropic 近日正式开源了一项重要的研究工具——运算电路追踪（Circuit Tracing）系统，帮助研究人员深入理解大语言模型的内部工作机制。

该工具支持主流开放权重模型（如 Gemma 和 Llama 系列），并整合于 Neuronpedia 平台，提供交互式前端界面，用户可生成、可视化并分享模型在生成特定输出时的归因图（Attribution Graphs），从而推动 AI 模型的可解释性研究向前迈进一大步。

为什么需要电路追踪？

随着语言模型规模不断扩大，其推理过程也日益复杂。然而，当前我们对模型“如何做出决策”的理解，远远落后于其实际能力的发展。

过去，这类研究多集中在封闭环境或少数机构内部，限制了外部社区的参与与验证。此次 Anthropic 的开源举措，正是为了打破这一壁垒，让更多研究人员能够：

观察模型内部的运作路径
分析参数和特征值之间的互动关系
识别关键节点、潜在偏差或异常行为

🔍 电路追踪的核心功能

✅ 自动生成归因图

通过配套函式库，研究人员可在支持的模型上自动构建归因图，记录模型在生成输出时的关键计算路径。目前支持的模型包括：

Gemma-2-2b
Llama-3.2-1b
其他主流开源权重模型（持续扩展中）

这些图谱将展示模型在处理输入提示时，哪些神经元被激活、哪些参数被调用、以及它们是如何一步步组合形成最终输出的。

✅ 图像化探索与交互分析

所有生成的归因图都可通过 Neuronpedia 前端平台进行浏览、注解和分享。平台还提供了多个示例笔记本（Notebook），展示了模型在执行：

多步骤推理任务
多语言转换场景

时的内部行为变化，鼓励用户尝试不同提示词，比较模型反应，拓展对模型机制的理解边界。

✅ 实验驱动的研究方式

研究人员还可手动修改某些节点或特征值，观察模型输出的变化，从而验证假设、发现隐藏模式，甚至改进模型安全性与公平性。

🧩 Neuronpedia：一个开放的模型分析平台

除了提供电路追踪工具外，Anthropic 还与 Decode Research 团队合作，推出 Neuronpedia 平台，作为归因图的集中展示与协作空间。

平台亮点包括：

交互式图形界面：轻松放大、缩放、搜索特定节点
标注与分享功能：便于团队协作与知识积累
预设案例库：涵盖多种模型、任务与提示语组合
未分析归因图集合：供社区共同探索和研究

未来，平台将持续更新更多模型和分析工具，成为开放语言模型研究的重要基础设施。

📌 此次开源内容一览

类别	内容
工具库	支持主流模型的电路追踪库
分析脚本	示例代码与归因图生成流程说明
数据集	包含 Gemma-2-2b 和 Llama-3.2-1b 的归因图样例
前端平台	Neuronpedia 提供交互式浏览体验

此外，研究团队已上传大量尚未分析的归因图，欢迎社区成员提交新发现和改进建议。

💬 Anthropic 的愿景

Anthropic CEO Dario Amodei 表示：

“语言模型的可解释性已成为整个行业亟需解决的核心问题。我们希望通过开源这些工具，让更广泛的社区参与进来，加速我们对 AI 内部机制的理解。”

此次发布的电路追踪工具，标志着 Anthropic 在模型透明化方向迈出的重要一步，也为学术界和工业界的研究者提供了一个强大的新武器，去探索语言模型背后的真正“思维过程”。

🚀 如何开始使用？

你可以通过以下方式接入电路追踪项目：

访问 Neuronpedia 平台：https://neuronpedia.org
查看 GitHub 代码库：https://github.com/safety-research/circuit-tracer

工具 # Anthropic # Circuit Tracing

文章版权归作者所有，未经允许请勿转载。

AI音乐创作神器Suno！只需一个提示即可快速创作歌曲

工具 # AI音乐 # Suno

2年前

01,7050

Anthropic 将在超级碗周期间发布 Claude Sonnet 5，主打数学与编程能力

早报 # Anthropic # Claude Sonnet 5

1个月前

0340

Ollama 新增图像生成功能！macOS 率先体验，双模型（Z-Image Turbo 与 FLUX.2 Klein）支持中英文本渲染 + 高精度创作

工具 # LUX.2 Klein # Ollama # Z-Image-Turbo

2个月前

0430

Anthropic 扩大谷歌云合作，2026年将获超1GW TPU算力

早报 # Anthropic # 谷歌云

5个月前

0550

暂无评论

暂无评论...

Anthropic 开源新一代电路追踪工具：揭开大语言模型“黑箱”的关键一步

为什么需要电路追踪？

🔍 电路追踪的核心功能

✅ 自动生成归因图

✅ 图像化探索与交互分析

✅ 实验驱动的研究方式

🧩 Neuronpedia：一个开放的模型分析平台

📌 此次开源内容一览

💬 Anthropic 的愿景

🚀 如何开始使用？

FramePackLoop：基于FramePack开发，专注于循环视频生成

Chatterbox-TTS-Extended ：全能 TTS 工具链支持语音转换与高质量音频生成

相关文章

AI音乐创作神器Suno！只需一个提示即可快速创作歌曲

Anthropic 将在超级碗周期间发布 Claude Sonnet 5，主打数学与编程能力

Ollama 新增图像生成功能！macOS 率先体验，双模型（Z-Image Turbo 与 FLUX.2 Klein）支持中英文本渲染 + 高精度创作

Anthropic 扩大谷歌云合作，2026年将获超1GW TPU算力

暂无评论

文章

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

深开鸿 KaihongOS 桌面版 5.0 正式开放免费试用：基于开源鸿蒙，首获公安部安全认证

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

零成本尝鲜 OpenClaw：一部安卓手机就能跑起本地 AI 助手

LTX-2.3 提示词终极指南：从“抽卡”到“导演”，解锁原生视频生成的掌控力

S.H.I.T

新WorkBuddy

QClaw

新ArkClaw

新AutoClaw

CoPaw

Anthropic 开源新一代电路追踪工具：揭开大语言模型“黑箱”的关键一步

为什么需要电路追踪？

🔍 电路追踪的核心功能

✅ 自动生成归因图

✅ 图像化探索与交互分析

✅ 实验驱动的研究方式

🧩 Neuronpedia：一个开放的模型分析平台

📌 此次开源内容一览

💬 Anthropic 的愿景

🚀 如何开始使用？

FramePackLoop： 基于FramePack开发，专注于循环视频生成

Chatterbox-TTS-Extended ：全能 TTS 工具链支持语音转换与高质量音频生成

相关文章

文章

标签云

网址

S.H.I.T

新WorkBuddy

QClaw

新ArkClaw

新AutoClaw

CoPaw

FramePackLoop：基于FramePack开发，专注于循环视频生成