LMArena

共 2 篇网址

排序

发布更新浏览点赞

LMArena

Chatbot Arena是一个开放平台，专注于通过人类偏好评估大型语言模型（LLMs）的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发，旨在为LLMs提供一个公正、透明的评估环境。

04800

基准测试 # Chatbot Arena # LMArena # 大语言模型

Code Arena

LMArena正式推出 Code Arena，一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同，Code Arena 聚焦于完整软件开发周期，记录模型从需求理解到部署的全过程行为。

03130

基准测试 # Code Arena # LMArena