
一位12年级的学生 Adi Singh 发起了一个名为 Minecraft Benchmark(简称 MC-Bench)的项目,这个网站允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式,不仅能够以一种有趣且直观的方式评估AI模型的能力,还能够让更多的人参与到对AI进展的理解和评估中来。

项目背景与目的
随着传统AI基准测试方法逐渐显示出其局限性,寻找新的、更具创意的方法来评估生成式AI模型变得尤为重要。Adi Singh选择了《我的世界》这款广受欢迎的沙盒建造游戏作为平台,因为即使是对游戏本身不熟悉的用户也能轻松判断不同AI模型创建的作品质量。MC-Bench旨在通过让用户投票选出哪个AI模型的表现更佳,来衡量这些模型在创造性任务中的表现。

参与与发展
目前,MC-Bench项目有8名志愿者参与贡献,并得到了来自Anthropic、Google、OpenAI和Alibaba等公司的支持,用于运行基准测试提示。尽管如此,这些公司并未直接参与项目的其他方面。该项目最初专注于简单的建造任务,但未来有可能扩展到更加复杂的长期计划和目标导向的任务。
技术细节与评估
从技术角度看,MC-Bench实际上是一个编程基准测试,因为它要求AI模型编写代码来实现给定的建造提示,比如“雪人弗罗斯蒂”或“原始沙滩上的迷人热带海滩小屋”。然而,对于大多数用户来说,比较一个雪人看起来是否比另一个更好远比理解背后的代码要简单得多,这也正是MC-Bench的魅力所在——它降低了参与门槛,吸引了更多人的关注。
意义与展望
虽然这些基于MC-Bench的评分在AI实用性方面的意义仍然存在争议,但Adi Singh认为它们提供了一个强有力的信号。“当前的排行榜与我使用这些模型的个人体验非常吻合”,Singh表示。他认为这种类型的评估可以帮助公司了解他们的发展方向是否正确。
此外,MC-Bench不仅仅是为了娱乐或是简单的比较,它反映了AI领域内对更加实际、贴近生活的评估方式的需求。通过这种方式,不仅可以更好地理解现有模型的优缺点,还可以为未来的AI发展指明方向。
数据统计
相关导航


WildScore

HumaneBench

ARC Prize

AI-Trader

AITradeGame

InferenceMax







