LMArena

7个月前更新 480 00

Chatbot Arena是一个开放平台，专注于通过人类偏好评估大型语言模型（LLMs）的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发，旨在为LLMs提供一个公正、透明的评估环境。

所在地：

美国

收录时间：

2025-02-14

其他站点:

测试版

打开网站手机查看

LMArena

打开网站

LMArena（原Chatbot Arena）是一个开放平台，专注于通过人类偏好评估大语言模型（LLMs）和AI绘画模型的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发，为LLMs提供一个公正、透明的评估环境。

核心功能

1. 众包评估：LMArena通过众包方式收集用户对不同模型的投票，确保评估结果的多样性和代表性。
2. Elo评分系统：该平台采用Elo评分系统对模型进行排名，确保排名的准确性和公平性。
3. 多模态支持：用户可以上传图像，与AI聊天机器人进行多模态交互，增强评估体验。

使用方法

用户可以通过以下步骤使用LMArena：

访问平台：前往官方网站。
参与对战：用户可以选择两个匿名的聊天机器人进行对战，提出相同的问题并投票选出更好的回答。
浏览排行榜：查看不同模型的Elo评分和实时排名。
进行模型比较：选择多个模型进行并排比较，以直观了解其优劣。

相关：AI基准测试平台Chatbot Arena成立新公司Arena Intelligence Inc.

Beta版发布与改进

Chatbot Arena表示热情邀请大家体验LMArena的全新Beta版。数月来，团队深入研究社区反馈，致力于改进网站——修复错误/漏洞、优化UI布局等。Beta版从头重建，具体改进包括：

更快、更流畅的体验
更优的移动端体验
聊天历史记录与投票功能优化
更清晰的UI和模型导航

数据统计

暂无评论

暂无评论...

LMArena

核心功能

使用方法

Beta版发布与改进

数据统计

相关导航

WorldVQA

Droidrun

DeepSeek

CodeArena

InferenceMax

Unsloth AI

PinchBench

Rust LLM from Scratch

暂无评论

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

LMArena

核心功能

使用方法

Beta版发布与改进

数据统计

相关导航

WorldVQA

Droidrun

DeepSeek

CodeArena

InferenceMax

Unsloth AI

PinchBench

Rust LLM from Scratch

暂无评论

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw

标签云

网址

S.H.I.T

新WorkBuddy

新QClaw

新ArkClaw

新AutoClaw

CoPaw