谷歌的Gemini 2.5 Pro模型在少许帮助下通关《宝可梦蓝》

209 0

谷歌的 Gemini 模型最近完成了一项令人瞩目的任务：通关经典游戏《宝可梦蓝》。这一成就不仅展示了 Gemini 的强大能力，也引发了人们对 AI 在游戏领域的潜力的进一步讨论。

Gemini 的通关之旅

谷歌首席执行官 Sundar Pichai 在社交媒体平台上兴奋地分享了这一消息：“多么精彩的结局！Gemini 2.5 Pro 刚刚完成了《宝可梦蓝》！”这一成就标志着 Gemini 在游戏领域的又一重要进展。

然而，这一成就并非完全由谷歌主导。Gemini Plays Pokémon 的直播是由一位名叫 Joel Z 的软件工程师创建的，他自称“与谷歌无关”，但谷歌高管们一直对这一项目表示支持。谷歌 AI Studio 产品负责人 Logan Kilpatrick 上个月曾表示，Gemini 在完成《宝可梦》方面“取得了巨大进展”，已经获得了第五枚徽章，而其他模型目前仅获得三枚。

为什么选择《宝可梦》？

选择《宝可梦蓝》作为 Gemini 的挑战对象并非偶然。早在今年二月，Anthropic 曾强调其 Claude AI 模型在《宝可梦红》中的进展，称 Claude 的“扩展思考和代理训练”为其在“更意想不到”的任务（如玩经典游戏）上提供了“重大提升”。《宝可梦红》和《宝可梦蓝》是 1996 年首次发布的 GameBoy 游戏的不同版本，与长期运营的宝可梦系列密切相关。此外，还有一个名为“Claude Plays Pokémon”的 Twitch 频道，Joel Z 表示这是他的灵感来源。

尽管 Claude 在《宝可梦红》中取得了进展，但尚未通关。这是否意味着 Gemini 在游戏中表现得更好？Joel Z 在其 Twitch 页面上明确表示：“请不要将此视为衡量语言模型玩宝可梦能力的基准。Gemini 和 Claude 使用不同的工具并接收不同的信息，无法直接比较。”

AI 玩游戏的挑战与支持

无论是 Gemini 还是 Claude，AI 模型在玩游戏时都需要一些帮助。这主要是通过“代理框架”实现的，该框架为模型提供带有附加信息的游戏截图，让模型决定如何响应（可能涉及调用专用代理），然后按下与 AI 指令对应的按钮。

Joel Z 承认，为了帮助 Gemini 完成游戏，还进行了其他“开发者干预”，但他坚称这不是作弊。他解释说：“我的干预改善了 Gemini 的整体决策和推理能力。我没有提供具体提示——没有针对月见山等特定挑战的攻略或直接指令。唯一接近的情况是让 Gemini 知道需要与火箭队成员对话两次以获得电梯钥匙，这是一个在《宝可梦黄》中修复的游戏 bug。”

此外，Joel Z 还表示：“Gemini Plays Pokémon 仍在积极开发中，框架也在不断演进。”