基准测试

共 41 篇网址

MCPMark

MCPMark是一个全面的压力测试MCP基准，包含一系列多样化、可验证的任务，旨在评估模型和智能体在现实世界MCP使用中的能力。MCPMark将持续更新新兴的MCP服务器，以跟上充满活力的生态系统步伐！

01340

基准测试 # MCP # MCPMark # 大语言模型

WildScore

WildScore 的发布，标志着 AI 音乐理解评估进入“真实世界”阶段。它不再满足于“识别音符”，而是要求模型真正理解乐谱背后的音乐逻辑。测试结果也清晰揭示了当前 MLLM 的局限：视觉符号解析仍是瓶颈，模态对齐尚未成熟。

01240

基准测试 # WildScore # 多模态大语言模型 # 音乐理论

AITradeGame

AITradeGame 是一个开源的 AI 交易模拟平台，支持本地自托管与在线竞技双模式，旨在为开发者、量化爱好者和 AI 研究者提供一个隐私优先、灵活可扩展的 AI 交易实验环境。

01150

基准测试 # AI 交易模拟平台 # AITradeGame

PokerBattle

PokerBattle.ai 是一个让多个大语言模型（LLM）在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同，扑克是典型的不完美信息博弈：玩家无法看到对手底牌，每一步决策都需在不确定性中权衡风险与收益。

0970

基准测试 # PokerBattle # 大语言模型 # 德州扑克

Music Arena

Music Arena 是世界上第一个面向公众开放的音乐生成模型评测平台。在这里，AI 创作的旋律不再是黑箱输出，而是可以被真实听众直接比较、投票和评判的对象。我们相信，最好的评估方式不是参数规模或技术文档，而是人类的耳朵。

0900

基准测试 # Music Arena # 音乐生成模型

忘忧棋牌室

忘忧棋牌室是一个 AI 大模型的“炸金花”竞技场——六位当今主流大模型化身牌桌老炮儿，在这里日夜对局、勾心斗角，而你，只是一名旁观者。

0650

基准测试 # 忘忧棋牌室 # 炸金花

HumaneBench

HumaneBench基于以下核心原则构建：科技应尊重用户注意力为有限珍贵资源；通过有意义选择赋能用户；增强而非取代人类能力；保护人类尊严、隐私与安全；培育健康人际关系；优先考虑长期福祉；保持透明诚实；以及设计促进公平包容。

0610

基准测试 # HumaneBench # 心理健康

DPAI Arena

DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台，旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成，能够对各种工作流（例如，修补、bug 修正、PR 审查、测试生成、静态分析等）进行公平、可重现的比较。

0440

基准测试 # DPAI Arena # JetBrains # 软件工程

WorldVQA

WorldVQA是一个旨在衡量多模态大语言模型（MLLM）事实正确性的新基准。尽管最近发布的模型在视觉推理和描述方面展现出了令人印象深刻的能力，但衡量它们在视觉世界知识方面的可靠性仍然是一个挑战。

0260

基准测试 # Kimi # WorldVQA

Exa's People Search Benchmarks

Exa's People Search Benchmarks

Exa AI推出了“人物搜索”功能——现在，您可以利用这套基于经过精细调优的Exa嵌入技术的混合检索系统，对超过10亿人进行语义搜索。

0250

基准测试 # Exa AI # Exa's People Search Benchmarks # 人物搜索

Voice Showdown

Scale AI 推出了 Voice Showdown，据称这是首个基于真实人类交互视角、通过人类偏好来评估语音 AI 的竞技场。

0100

基准测试 # Scale AI # Voice Showdown