Anthropic 首席执行官达里奥·阿莫迪(Dario Amodei)周四发表了一篇文章,强调了当前对世界领先 AI 模型内部运作方式理解的局限性,并为 Anthropic 设定了一个雄心勃勃的目标:在 2027 年前可靠地检测出大多数 AI 模型的问题。
AI 模型的“黑箱”问题
阿莫迪在文章中指出,尽管 AI 模型的性能不断提升,但研究人员对其内部决策机制的理解仍然有限。例如,OpenAI 最近推出的推理 AI 模型 o3 和 o4-mini 在某些任务上表现更好,但幻觉现象也比其他模型更多,而 OpenAI 并不清楚为什么会发生这种情况。
“当一个生成式 AI 系统做某事时,比如总结一份财务文件,我们无法在具体或精确的层面上知道它为什么会做出这样的选择——为什么它会选择某些词而不是其他词,或者为什么它有时会出错,尽管通常都很准确。” 阿莫迪在文章中写道。
Anthropic 的突破与挑战
Anthropic 是机械可解释性领域的先驱之一,该领域旨在打开 AI 模型的“黑箱”,理解其决策过程。尽管 Anthropic 在追踪模型如何得出答案方面取得了初步突破,但阿莫迪强调,随着这些系统变得越来越强大,还需要进行更多的研究来解码它们。
Anthropic 联合创始人克里斯·奥拉(Chris Olah)表示,AI 模型“更多的是生长出来的,而不是构建出来的”。换句话说,AI 研究人员已经找到了提高 AI 模型智能的方法,但他们并不完全清楚其中的原因。
AGI 的风险与可解释性的重要性
阿莫迪指出,如果不了解这些模型的工作原理就达到人工通用智能(AGI),可能是危险的。他曾在之前的文章中预测,科技行业可能在 2026 年或 2027 年达到 AGI 的里程碑,但他认为我们距离完全理解这些 AI 模型还有很长的路要走。
从长远来看,Anthropic 希望对最先进的 AI 模型进行“脑部扫描”或“核磁共振”,以识别模型中的各种问题,包括它们撒谎或寻求权力的倾向,或其他弱点。阿莫迪表示,这可能需要五到十年的时间才能实现,但这些措施对于测试和部署 Anthropic 未来的 AI 模型将是必要的。
Anthropic 的研究进展
Anthropic 在研究方面取得了一些突破,使其能够更好地理解其 AI 模型的工作原理。例如,该公司最近找到了通过“电路”来追踪 AI 模型思维路径的方法。Anthropic 识别出一个电路,该电路帮助 AI 模型理解哪些美国城市位于哪些美国州。虽然该公司只发现了少数这样的电路,但估计 AI 模型中存在数百万个这样的电路。
Anthropic 一直在自行投资于可解释性研究,并且最近首次投资了一家从事可解释性工作的初创公司。阿莫迪指出,最终,解释 AI 模型如何得出答案可能会带来商业优势。
呼吁行业合作与监管
在文章中,阿莫迪呼吁 OpenAI 和 Google DeepMind 增加在可解释性领域的研究力度。除了友好的推动之外,他还要求各国政府实施“轻触式”监管,以鼓励可解释性研究,例如要求公司披露其安全措施。
阿莫迪还表示,美国应该对向中国出口芯片实施出口管制,以限制失控的全球 AI 竞赛的可能性。这一观点引发了行业内的广泛讨论。
Anthropic 的独特定位
Anthropic 一直以来都因其对安全的关注而区别于 OpenAI 和 Google。尽管其他科技公司反对加州有争议的 AI 安全法案 SB 1047,但 Anthropic 对该法案表示了适度的支持和建议,该法案本将为前沿 AI 模型开发者设定安全报告标准。
Anthropic 似乎正在推动整个行业共同努力,以更好地理解 AI 模型,而不仅仅是提高它们的能力。阿莫迪的呼吁和 Anthropic 的研究进展,为 AI 行业的未来发展提供了一个重要的方向。