
近日,AI2(艾伦人工智能研究所)推出了 SciArena —— 一个用于评估基础模型在科学文献相关任务中表现的开放平台。该平台采用众包式评估机制,旨在推动 AI 在科研领域的应用向更准确、可靠的方向发展。

科学文献爆炸催生对 AI 的需求
随着科学研究产出的快速增长,研究人员越来越难以及时跟进最新成果并有效整合知识。在此背景下,大型语言模型(LLM)被广泛用于辅助科学探索,但如何客观评估它们在复杂、专业性强的科学任务中的表现,仍是一个重大挑战。
传统基准测试存在明显局限:
- 数据静态、规模有限
- 更新缓慢、无法反映最新进展
- 难以覆盖多学科、多样化的科学问题
为此,AI2 推出了 SciArena,借助社区参与的方式,构建一个动态、开放、面向未来的科学模型评估体系。

SciArena 是什么?
SciArena 是一个开源、协作式的评估平台,专注于评估基础模型在科学文献理解与推理方面的表现。其核心理念借鉴自 Chatbot Arena 等用户驱动的模型比较平台,但针对科学任务进行了深度定制。

平台包含三大核心组件:
🧪 SciArena 平台
用户可以提交科学问题,平台自动检索相关论文并让两个模型生成答案。用户对比输出后投票选择更优回答。
📊 模型排行榜
基于社区投票数据,使用 Elo 评分系统对模型进行动态排名,实时反映模型能力变化。

🧩 SciArena-Eval(元评估基准)
基于人类偏好数据构建的自动化评估基准,用于衡量模型是否能准确预测人类判断,是检验评估系统可靠性的重要工具。
SciArena 如何工作?——幕后解析
SciArena 的运作流程高度依赖高质量的科学文献检索与标准化的答案呈现机制:
- 问题提交:用户输入科学问题。
- 上下文检索:平台调用 AI2 开发的 Scholar QA 系统,执行多阶段检索:
- 查询分解
- 段落检索
- 结果重排序
- 模型生成:两个随机选取的基础模型基于问题和检索结果生成带引用的回答。
- 格式统一:为减少风格偏差,所有输出统一为标准文本格式,引用样式一致。
- 用户评估:匿名展示回答,用户根据信息准确性、完整性、有用性等维度投票。
整个流程确保了评估的公平性和可重复性。
当前评估结果概览(截至 2025 年 6 月)
目前 SciArena 已集成 23 个前沿基础模型,涵盖当前主流闭源和开源方案。以下是主要发现:
| 模型 | 表现亮点 |
|---|---|
| o3 | 综合表现最佳,在工程领域尤为突出,生成的回答技术性强且引用详尽 |
| Claude-4-Opus | 医疗健康领域领先,擅长处理临床和生物医学相关内容 |
| DeepSeek-R1-0528 | 自然科学领域表现出色,尤其在物理、化学等基础学科中优势明显 |
值得注意的是,即便是最强模型 o3,在预测人类偏好的 SciArena-Eval 基准上也仅达到 65.1% 准确率,远低于通用领域的 AlpacaEval 和 WildChat(>70%)。这表明:
科学推理任务的评估难度显著高于通用任务,亟需更稳健、可靠的评估方法。
SciArena 的数据质量保障
高质量评估离不开高质量的人类反馈。SciArena 在数据采集和标注方面采取了多项严格措施:
- ✅ 专家标注者:102 位具备学术背景的研究人员参与,均拥有至少两篇同行评审论文及 AI 辅助研究经验
- ✅ 系统培训:每位标注者接受 1 小时专项培训,确保评估标准一致
- ✅ 盲评机制:模型身份在投票前不显示,避免品牌偏见
- ✅ 一致性验证:
- 自我一致性:加权 Cohen’s κ = 0.91(极高)
- 标注者间一致性(IAA):加权 Cohen’s κ = 0.76(良好)
这些措施确保了评估数据的高可信度,使 SciArena 成为当前最严谨的科学模型评估平台之一。

未来方向与挑战
尽管 SciArena 已取得初步成功,但仍面临多个重要挑战:
- 🔁 固定检索管道限制:当前使用的 RAG 流程(包括索引、提示词)是固定的,未来将探索不同检索策略对结果的影响。
- 🔄 提示词优化空间:提示工程对输出质量有显著影响,平台计划引入更多提示策略供评估。
- 🤝 持续扩展模型库:欢迎更多模型开发者加入,共同推进平台建设。
- 📈 增强自动化评估:开发更精准的模型评估指标,缩小自动化评估与人类判断之间的差距。
数据统计
相关导航


Code Arena

CodeArena

Artificial Analysis

InferenceMax

LiveMCPBench

Game Arena







