LMArena

3个月前更新 448 00

Chatbot Arena是一个开放平台,专注于通过人类偏好评估大型语言模型(LLMs)的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发,旨在为LLMs提供一个公正、透明的评估环境。

所在地:
美国
收录时间:
2025-02-14
其他站点:

LMArena(原Chatbot Arena)是一个开放平台,专注于通过人类偏好评估大语言模型(LLMs)和AI绘画模型的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发,为LLMs提供一个公正、透明的评估环境。

LMArena

核心功能

  1. 1. 众包评估:LMArena通过众包方式收集用户对不同模型的投票,确保评估结果的多样性和代表性。
  2. 2. Elo评分系统:该平台采用Elo评分系统对模型进行排名,确保排名的准确性和公平性。
  3. 3. 多模态支持:用户可以上传图像,与AI聊天机器人进行多模态交互,增强评估体验。

使用方法

用户可以通过以下步骤使用LMArena:

  • 访问平台:前往官方网站。
  • 参与对战:用户可以选择两个匿名的聊天机器人进行对战,提出相同的问题并投票选出更好的回答。
  • 浏览排行榜:查看不同模型的Elo评分和实时排名。
  • 进行模型比较:选择多个模型进行并排比较,以直观了解其优劣。
LMArena

相关:AI基准测试平台Chatbot Arena成立新公司Arena Intelligence Inc.

Beta版发布与改进

Chatbot Arena表示热情邀请大家体验LMArena的全新Beta版。数月来,团队深入研究社区反馈,致力于改进网站——修复错误/漏洞、优化UI布局等。Beta版从头重建,具体改进包括:

  • 更快、更流畅的体验
  • 更优的移动端体验
  • 聊天历史记录与投票功能优化
  • 更清晰的UI和模型导航
LMArena

数据统计

相关导航

暂无评论

none
暂无评论...