一些专家指出,众包 AI 基准测试在伦理和学术上存在严重问题

早报3周前发布 小马良
46 0

随着 AI 技术的快速发展,AI 实验室越来越依赖众包基准测试平台来评估其模型的性能。然而,一些专家指出,这种评估方式在伦理和学术上存在严重问题。本文将探讨众包 AI 基准测试的现状、存在的问题以及可能的解决方案。

众包基准测试的现状

近年来,包括 OpenAI、谷歌和 Meta 在内的多家 AI 实验室纷纷转向众包基准测试平台,如 Chatbot Arena,以评估其即将推出的模型能力。这些平台通过招募用户对模型进行测试,帮助实验室探测模型的优势和劣势。当一个模型在这些平台上得分较高时,实验室通常会将其作为模型取得有意义改进的证据进行宣传。

一些专家指出,众包 AI 基准测试在伦理和学术上存在严重问题

专家的质疑

然而,这种方法遭到了一些专家的批评。华盛顿大学语言学教授 Emily Bender 认为,这种评估方式存在严重缺陷。Bender 特别对 Chatbot Arena 提出异议,该平台要求志愿者对两个匿名模型的输出进行比较,并选择他们更喜欢的回复。

Bender 指出:“基准测试需要衡量特定的东西,并且必须具有结构效度——也就是说,必须有证据表明感兴趣的结构被明确定义,并且测量结果实际上与该结构相关。然而,Chatbot Arena 尚未证明,选择一个输出而不是另一个输出实际上与偏好相关,无论这些偏好是如何定义的。”

基准测试被“利用”的风险

AI 公司 Lesan 的联合创始人 Asmelash Teka Hadgu 认为,像 Chatbot Arena 这样的基准测试正被 AI 实验室“利用”来“宣传夸大的说法”。他以 Meta 的 Llama 4 Maverick 模型为例,指出 Meta 对该模型的一个版本进行了微调,使其在 Chatbot Arena 上获得高分,但最终却放弃发布该版本,转而发布一个性能较差的版本。

Hadgu 强调:“基准测试应该是动态的,而不是静态的数据集,应该分布在多个独立的实体(如组织或大学)中,并专门针对不同的用例进行定制,如教育、医疗保健以及由使用这些模型的专业人士完成的其他领域。”

评估人员应获得报酬

Hadgu 和曾领导阿斯彭研究所新兴和智能技术倡议的 Kristine Gloria 还认为,模型评估人员应该为其工作获得报酬。Gloria 指出,AI 实验室应该从数据标注行业的错误中吸取教训,该行业因其剥削性做法而臭名昭著。

Gloria 说:“众包基准测试过程是有价值的,类似于公民科学倡议。理想情况下,它有助于引入额外的视角,为数据的评估和微调提供深度。但基准测试绝不应该成为唯一的评估指标。随着行业和创新的快速发展,基准测试可能会迅速变得不可靠。”

众包基准测试的局限性

为模型运行众包红队活动的 Gray Swan AI 的 CEO Matt Frederikson 也承认,公共基准测试“不能替代”“付费的私人”评估。他指出,开发人员还需要依赖内部基准测试、算法红队以及可以采取更开放的方法或带来特定领域专业知识的合同红队。

Frederikson 说:“对于模型开发人员和基准测试创建者来说,清晰地向关注者沟通结果,并在受到质疑时做出回应非常重要。”

行业内的反思与改进

模型市场 OpenRouter 的 CEO Alex Atallah 最近与 OpenAI 合作,向用户提供 OpenAI GPT-4.1 模型的早期访问权限。他也认为,仅靠模型的开放测试和基准测试“是不够的”。

加州大学伯克利分校的 AI 博士生、维护 Chatbot Arena 的 LMArena 的创始人之一 Wei-Lin Chiang 也持类似观点。Chiang 说:“我们的目标是创建一个值得信赖的开放空间,衡量我们社区对不同 AI 模型的偏好。”
Chiang 指出,像 Maverick 基准测试差异这样的事件并非 Chatbot Arena 设计缺陷造成的,而是实验室误解了其政策。她表示,LM Arena 已经采取措施防止未来出现类似差异,包括更新其政策以“加强我们对公平、可重复评估的承诺”。

Chiang 说:“我们的社区不是作为志愿者或模型测试员来到这里的。人们使用 LM Arena 是因为我们为他们提供了一个开放、透明的平台来参与 AI 并提供集体反馈。只要排行榜忠实地反映了社区的声音,我们就欢迎它被分享。”(来源

© 版权声明

相关文章

暂无评论

none
暂无评论...