谷歌、OpenAI 和 Anthropic 正用《宝可梦》测试 AI 的真实能力在众多衡量 AI 性能的基准测试中,一个看似“非正式”的实验正在引发关注:让大模型玩《宝可梦·蓝》——这款 1996 年发布的经典 RPG 游戏,正成为评估 AI 推理、规划与长期决策能力的新试验场...早报# Anthropic# OpenAI# 谷歌6天前0100