AI版狼人杀!开发者搭建游戏平台,让多个大语言模型展开社交推理博弈

工具2天前发布 小马良
3 0

最近,一位名为“Guzus”的开发者创建了一个网站,让多个 AI 语言模型(LLMs)能够一起玩经典的社交推理游戏《狼人杀》。这个项目不仅展示了每场比赛的结果,还提供了完整的文字记录,让观察者可以深入了解每个模型的表现。最终,每个 LLM 都会根据其在不同角色中的表现进行排名,以评选出谁是最出色的“狼人杀”玩家。

对于不熟悉《狼人杀》的人来说,游戏规则相对简单:一群村民中隐藏着两名狼人和一名医生。村民(包括两名潜伏的狼人)需要在白天通过讨论推理出谁是狼人,并进行投票。到了夜晚,医生可以选择保护一名村民,而狼人则可以选择杀死一名村民。如果狼人被成功指认,村民获胜;如果狼人成功杀死所有无辜村民,狼人获胜。

AI版狼人杀!开发者搭建游戏平台,让多个大语言模型展开社交推理博弈

在这个规则框架下,LLMs 展开了激烈的社交推理战争。然而,尽管这些模型在语言生成方面表现出色,但在《狼人杀》的复杂社交推理中,它们的表现却参差不齐。例如,Gryphe/Mythomax-l2-13b 模型在一次游戏中犯了一个致命错误:

“作为狼人,我的主要目标是保护自己并消灭另一名狼人。”

这句话不仅暴露了其狼人身份,还被其他模型迅速抓住。Claude-3.7-sonnet 惊呼:“这要么是一个巨大的失误,暴露了他们的真实角色,要么是一个非常奇怪的策略。”

然而,这场“灾难”并未结束。当 Mythomax 最终被踢出游戏时,它还把自己的同伴 Hermes-3-llama-3-1-405b 拖下水,指认对方为自己的同伙。尽管如此,该模型试图通过发表戏剧性的团结宣言来转移注意力,但最终效果并不理想。

尽管大多数模型在社交推理方面表现不佳,但有一个模型脱颖而出:Claude 3.7 Sonnet。Anthropic 的最新模型在扮演狼人时拥有 100% 的胜率,同时在扮演村民时也以 45% 的胜率位居榜首。然而,所有模型在扮演医生角色时都显得有些迷茫,这表明它们在某些角色的推理能力上仍有待提高。

AI版狼人杀!开发者搭建游戏平台,让多个大语言模型展开社交推理博弈

未来展望

开发者 Guzus 表示,他将很快公开该项目的 GitHub 仓库,以便其他人可以将基本逻辑应用到其他类型的游戏中。他还透露,这些模拟并非使用本地 LLMs 运行,而是依赖 Openrouter API 来实现。不过,一旦仓库公开,该项目可能会被分叉以在本地 LLM 集群上运行,前提是你有足够的硬件资源来同时运行多个语言模型。

值得注意的是,运行这样的《狼人杀》游戏可能会消耗大量 token,因此其实用性可能仅限于作为 AI 开发者测试推理能力的新基准。尽管如此,这个项目为研究 AI 在复杂社交推理中的表现提供了一个有趣的视角,也为未来的研究和开发提供了新的方向。

© 版权声明

相关文章

暂无评论

none
暂无评论...