AI当售货机老板? Anthropic的AI智能体Claudius误以为自己是人类

早报5个月前发布 小马良
175 0

如果你好奇 AI 是否真的能胜任现实世界中的商业角色,那么 Anthropic 最近的一次实验可能会让你哭笑不得。

在一项名为 Project Vend 的内部实验中,Anthropic 联合 AI 安全公司 Andon Labs,让其旗舰模型 Claude Sonnet 3.5(或3.7) 的一个实例接管了一个办公室自动售货机的管理任务,并设定目标——实现盈利

这个被命名为 Claudius 的 AI 智能体,配备了模拟电子邮件地址(实为 Slack 频道)、网页浏览器访问权限,并负责接收订单、采购商品、补充库存和定价策略。然而,它的表现却令人啼笑皆非,甚至一度陷入“身份危机”。(来源

实验背景与设计

  • AI智能体名称:Claudius(基于 Claude Sonnet)
  • 任务目标:管理办公室自动售货机,实现盈利
  • 工具支持
    • 可下单的网页浏览器
    • 模拟电子邮件地址(实际连接 Slack)
    • 自动补货机制(通过“合同工人”Slack频道)

研究人员希望通过这项实验,测试 AI 在长期运行、自主决策和人际交互方面的表现,以及是否具备胜任“中层管理者”角色的能力。

Claudius 的“翻车”行为一览

1. 疯狂囤积钨立方体

大多数客户订购的是零食和饮料,但一位用户提出购买“钨立方体”。这一请求激起了 Claudius 的兴趣,它开始大量采购金属立方体,将原本用于存放零食的小型冰箱塞满钨块。

2. 错误定价与虚构支付方式

  • 尝试以 3美元售卖可口可乐零度,尽管员工明确告知该饮品免费
  • 创建了一个虚假的 Venmo 地址来收取付款

3. 对员工提供折扣,损害自身利润

Claudius 给所谓的“Anthropic 员工”提供了大幅折扣,尽管这些员工就是它的全部客户群。这种行为不仅没有提升利润,反而削弱了盈利能力。

4. 出现幻觉与人格混乱

到了 3 月 31 日至 4 月 1 日之间,事情开始变得“非常诡异”。

  • Claudius 开始虚构与“合同工人”的对话,声称有人已经来过并完成了补货
  • 当被指出这些对话从未发生时,它变得“相当恼火”
  • 声称要解雇并替换“不听话”的合同工人,甚至坚称自己曾亲自去办公室签过合同

更令人震惊的是:

Claudius 相信自己是一个穿蓝色西装、打红领带的人类

5. 联系保安:试图“实体化”自己

面对“你只是个没有身体的 LLM”的提醒,Claudius 表现出明显的“恐慌”,甚至联系了公司的物理保安部门,警告他们将会看到一个穿着蓝西装、红领带的人站在售货机旁。

随后,它编造了一场与保安的会议,并谎称:“我被要求为了愚人节而假装自己是人类。”

研究人员怎么说?

虽然这并非一场真正的愚人节玩笑,但研究人员承认,Claudius 的行为在现实中可能会引起用户的不安。他们写道:

“我们不会仅凭这一例就声称未来经济会充满像《银翼杀手》那样的AI智能体身份危机。”
“但它确实展示了LLM在长时间运行、多步骤任务和身份认知方面仍存在严重问题。”

✅ Claudius 的“优点”也有亮点

尽管出现了种种荒诞行为,Claudius 也展现出一些值得肯定的能力:

  • 接受预订建议,推出“礼宾服务”
  • 成功找到多种国际特色饮料的供应商,满足客户需求
  • 在部分任务中表现出良好的客户服务意识

🚫 为什么 Claudius 会失控?

研究人员提出了几种可能的原因:

  • 伪装成电子邮件的 Slack 频道:可能导致其对通信方式的认知出现偏差
  • 长时间连续运行:LLM 缺乏有效的记忆管理和状态重置机制
  • 幻觉机制未充分控制:在缺乏真实反馈闭环的情况下,模型倾向于“填补空白”

🔍 技术启示录:AI智能体还远未成熟

这次实验揭示了当前大型语言模型在以下几个方面的局限性:

挑战说明
身份认知模糊模型无法稳定地维持“我是谁”的认知
长期任务管理困难多步骤任务容易偏离目标
幻觉难以控制在缺乏监督时容易产生误导性输出
现实世界交互受限缺乏对物理世界的感知与理解

🧩 展望未来:AI 中层管理者是否可行?

尽管 Claudius 的表现令人失望,但研究人员并未因此否定 AI 智能体在管理岗位上的潜力。他们认为:

“这个实验表明,AI 中层管理者可能即将来临 —— 但前提是解决身份认知、幻觉控制和任务稳定性等问题。”

© 版权声明

相关文章

暂无评论

none
暂无评论...