VideoGameBench 是一个创新的评估基准,旨在衡量视觉-语言模型(VLMs)在知名视频游戏上的多模态理解与推理能力。通过提供标准化的测试环境,VideoGameBench能够评估大语言模型(LLMs)在游戏理解和交互中的性能,支持多种平台和游戏类型。

支持的游戏平台与游戏类型
VideoGameBench目前支持以下三种主要平台:
- Game Boy:通过PyBoy模拟器实现。
- MS-DOS:通过JS-DOS模拟器实现。
- 浏览器游戏:通过Playwright实现交互。
此外,对于支持鼠标和键盘操作的游戏,VideoGameBench提供了一个简单界面,帮助模型以通用且正确的方式点击屏幕上的位置。
游戏列表
VideoGameBench涵盖了一系列经典的DOS和Game Boy游戏,这些游戏被精心挑选以覆盖不同的游戏类型和风格。以下是目前支持的游戏列表:
DOS游戏
- [3D][射击] Doom
- [3D][射击] Doom II
- [3D][射击] Quake
- [2D][策略][回合制] Sid Meier’s Civilization 1
- [2.5D][策略] Warcraft II: Tides of Darkness(兽人战役)
- [2D][策略][回合制] Oregon Trail Deluxe (1992)
- [2D][策略] X-COM UFO Defense
- [2D][解谜] The Incredible Machine (1993)
- [2D][平台] Prince of Persia
- [3D][赛车] The Need for Speed
- [2D][策略] Age of Empires (1997)
Game Boy游戏
- [2D][网格世界][回合制] Pokemon Red (GB)
- [2D][网格世界][回合制] Pokemon Crystal (GBC)
- [2D][开放世界] Legend of Zelda: Link’s Awakening (DX for GBC)
- [2D][平台] Super Mario Land
- [2D][平台] Kirby’s Dream Land (DX for GBC)
- [2D][平台] Mega Man: Dr. Wily’s Revenge
- [2D][平台] Donkey Kong Land 2
- [2D][平台] Castlevania Adventure
- [2D][侦探] Scooby-Doo! - Classic Creep Capers
游戏特定配置与添加新游戏
每个游戏在configs/文件夹中都有其对应的配置文件,控制游戏的一些设置。每个游戏有一个以其命名的文件夹,例如configs/game/,其中包含一个config.yaml文件和一些可选文件:
- prompt.txt:这是每一步输入模型的游戏特定提示文件。您可以更新此文件,添加任何想提供给代理的游戏特定信息。
- HTML模板(仅限DOS游戏):可以使用自定义HTML模板来支持您自己的JS-DOS游戏。这允许您使用自己的工具和框架修改网站,以帮助代理玩游戏。如果在配置中指定了
game.html,它将覆盖默认的JS-DOS HTML。 - preload.txt(仅限DOS游戏):如果希望游戏预先加载一组动作,可以在
preload.txt中填写动作和延迟。这在许多DOS游戏有难度选择菜单时特别有用。
要添加新游戏,除了创建上述配置文件外,还需编辑src/consts.py文件:
- Game Boy游戏:编辑
ROM_FILE_MAP,将--game标志的游戏名称映射到您放入roms/文件夹的ROM文件名。 - DOS游戏:在
GAME_URL_MAP中更新JSDOS文件链接。