Code Arena

3周前发布 169 00

LMArena正式推出 Code Arena,一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同,Code Arena 聚焦于完整软件开发周期,记录模型从需求理解到部署的全过程行为。

所在地:
美国
收录时间:
2025-11-16
Code ArenaCode Arena

LMArena 宣布推出全新评估平台 Code Arena,专为真实世界场景设计,聚焦 AI 编程模型的全开发周期评估。不同于传统仅关注代码正确性的基准工具,Code Arena 以“代理式编程”为核心,完整记录从需求规划、迭代构建到调试优化的全流程,为开发者、研究人员及模型构建者提供透明、可复现的评估方案,目前已公开面向所有关注 AI 辅助开发的用户上线。

Code Arena

核心痛点:传统评估无法匹配 AI 编程模型的进化

如今的 AI 编程模型早已超越“一键生成代码”的初级阶段,成为能自主规划、搭建完整应用(如网页、系统重构)、实时调试的“编程代理”。但传统评估基准存在明显局限:仅聚焦代码是否可编译、能否通过静态测试用例,却忽略了软件开发本质是迭代创造的过程——规划、测试、优化的闭环才是真实开发的核心。

“问题早已不是‘模型会不会写代码’,而是‘它能把真实应用从头到尾做到多好’”,Code Arena 正是为解决这一痛点而生,将评估维度从“代码正确性”扩展到“全流程实战能力”。

核心特性:真实开发场景+全链路透明可追溯

Code Arena 以“贴近真实开发”为设计核心,打造了交互式、可追溯的评估环境,核心特性包括:

  1. 代理式行为模拟:模型以编程代理身份运行,可自主调用结构化工具(创建文件、编辑文件、读取文件),完整展示推理与执行过程,如同真实开发者思考与操作;
  2. 全周期流程记录:从需求接收、规划、生成到优化,每一步操作都被版本化记录,支持会话暂停、恢复、跨时间继续,状态永不丢失;
  3. 实时生成与预览:代码边生成边通过安全前端(CodeMirror 6)渲染,评估者可实时查看源码并交互预览应用效果,直观感受开发过程;
  4. 完整项目结构支持:生成结果包含 HTML/CSS/JS 等完整项目树,可检查模型对文件依赖管理、递归编辑的处理能力;
  5. 唯一可追溯 ID:每一次评估都绑定专属 ID,关联提示词、模型版本、操作记录、人工投票等全链路信息,确保结果可复现、可审计;
  6. 可分享协作:单次构建生成唯一链接,支持分享给同行测试、评审或对比,让评估成为参与式过程。
Code Arena

评估流程:从需求到结果的科学闭环

Code Arena 的每一次评估都是可完整复现的科学实验,流程清晰且严谨:

  1. 提交任务:评估者或开发者提交具体需求(如“开发支持暗黑模式的 Markdown 编辑器”);
  2. 模型规划:模型理解需求后,通过结构化工具调用规划执行步骤,模拟真实开发的思考过程;
  3. 实时生成:模型迭代生成可部署的完整应用,过程实时流式传输;
  4. 全量记录:所有操作(创建、编辑、执行)快照存储于 Cloudflare R2,数据库留存永久追溯链路;
  5. 人工盲比投票:人类评估者对模型输出进行两两盲评,从功能完整性、易用性、需求还原度,到设计品味等多维度打分,投票结果包含完整上下文(模型版本、延迟、环境);
  6. 科学汇总:结构化人工判断实时同步至排行榜,展示置信区间与方差,避免单一平均分的片面性。

从 WebDev Arena 到 Code Arena:重构评估体系

Code Arena 并非从零起步,而是取代了 Arena 此前运营的 WebDev Arena——后者作为早期大规模“人在回路”编程基准,首次实现了评估的参与式与透明化。但随着用户量增长和对精度、可复现性的要求提升,旧系统已难以满足真实世界的高标准。

Code Arena 进行了全栈重构,核心升级点包括:

  • 强化方法论严谨性:聚焦代理式工具使用,支持递归编辑与依赖管理,更贴近真实开发;
  • 数据处理透明化:全链路可追溯 ID 确保每一个结果都可验证,避免数据污染;
  • 科学测量标准:结构化人工评估+统计聚合,引入评委一致性、置信区间等维度,让评估更可信;
  • 全新干净排行榜:摒弃旧数据干扰,从零开始构建排行榜,确保模型对比的公平性。

旧版 WebDev Arena(WebDev Legacy)将作为历史档案退役,WebDev V2 排行榜成为面向未来的性能标准。同时,平台会对 UI 或流程改动进行偏见审计,量化对投票行为的影响并进行补偿,确保评估的一致性与公平性。

社区驱动+未来规划:打造“活的评估系统”

Code Arena 以社区为核心,开发者可通过平台提交挑战、参与实时测试、分享生成结果,集体反馈直接构成排行榜数据;Discord 社区与 Creator Community 则为用户提供交流、创意实践的空间,让评估不仅是“跑分”,更变得有趣、有创造力。

未来,Code Arena 还将持续迭代:

  • 短期:优化数据质量、降低延迟、提升评估速度,支持多文件 React 应用生成,让模型能构建结构化代码仓库;
  • 长期:上线代理支持、多模态输入、多文件项目隔离沙箱,贴近现代编程代理跨系统、跨界面的工作方式。

数据统计

相关导航

暂无评论

none
暂无评论...