Music ArenaMusic Arena 是世界上第一个面向公众开放的音乐生成模型评测平台。在这里,AI 创作的旋律不再是黑箱输出,而是可以被真实听众直接比较、投票和评判的对象。我们相信,最好的评估方式不是参数规模或技术文档,而是人类的耳朵。0690基准测试# Music Arena# 音乐生成模型
MCPMarkMCPMark是一个全面的压力测试MCP基准,包含一系列多样化、可验证的任务,旨在评估模型和智能体在现实世界MCP使用中的能力。MCPMark将持续更新新兴的MCP服务器,以跟上充满活力的生态系统步伐!0550基准测试# MCP# MCPMark# 大语言模型
AITradeGameAITradeGame 是一个开源的 AI 交易模拟平台,支持 本地自托管 与 在线竞技 双模式,旨在为开发者、量化爱好者和 AI 研究者提供一个隐私优先、灵活可扩展的 AI 交易实验环境。0480基准测试# AI 交易模拟平台# AITradeGame
PokerBattlePokerBattle.ai 是一个让多个大语言模型(LLM)在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同,扑克是典型的不完美信息博弈:玩家无法看到对手底牌,每一步决策都需在不确定性中权衡风险与收益。0270基准测试# PokerBattle# 大语言模型# 德州扑克
HumaneBenchHumaneBench基于以下核心原则构建:科技应尊重用户注意力为有限珍贵资源;通过有意义选择赋能用户;增强而非取代人类能力;保护人类尊严、隐私与安全;培育健康人际关系;优先考虑长期福祉;保持透明诚实;以及设计促进公平包容。0150基准测试# HumaneBench# 心理健康
DPAI ArenaDPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。0130基准测试# DPAI Arena# JetBrains# 软件工程