基准测试

共 38 篇网址

Open ASR 排行榜

Open ASR 排行榜对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER（字错误率）（⬇️ 越低越好）和 RTFx（实时因子）（⬆️ 越高越好），模型根据其平均 WER 从低到高进行排名。

015,4160

基准测试 # Hugging Face # 语音识别

NOFX

NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统，支持 Binance、Hyperliquid和Aster DEX交易所，多AI模型实盘竞赛，具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。

01,3740

基准测试 # NOFX # 加密货币

WebDev Arena

WebDev Arena 是一个实时的 AI编程竞赛平台，由 LMArena 开发，各种 AI代码模型在其中进行面对面的 Web 开发挑战。

08110

基准测试 # AI编程 # WebDev Arena # 网页开发

Artificial Analysis

Artificial Analysis

Artificial Analysis 是一个专注于 AI 模型和提供商分析的网站，通过提供性能基准测试和区域性报告，帮助用户做出明智的选择。其内容覆盖广泛，包括语言模型、图像模型等，并特别关注全球AI趋势，如中国市场的动态。对于需要深入了解 AI 选项的用户，该网站是一个有用的工具，尤其是在性能比较和趋势分析方面。

06860

基准测试 # AI模型 # Artificial Analysis

MagicArena

MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型（文生图、文生视频、图生视频）随机两两对战，用户对生成的结果进行评价，累积定对战数据后可以查看自己的大模型排行榜。

06300

基准测试 # Elo # MagicArena # 大模型

imgsys

imgsys.org 是一个专注于开源文本引导图像生成模型的评估平台，通过用户偏好数据的收集和开源，推动图像生成领域的研究和开发。

05160

基准测试 # Fal.ai # imgsys # 文生图模型

LMArena

Chatbot Arena是一个开放平台，专注于通过人类偏好评估大型语言模型（LLMs）的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发，旨在为LLMs提供一个公正、透明的评估环境。

04650

基准测试 # Chatbot Arena # LMArena # 大语言模型

MC-Bench

MC-Bench允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式，不仅能够以一种有趣且直观的方式评估AI模型的能力，还能够让更多的人参与到对AI进展的理解和评估中来。

04040

基准测试 # AI模型 # MC-Bench # 我的世界

Yupp

Yupp正式推出人类评估系统，邀请使用者协助评估全球逾 500 个大语言模型，包括 ChatGPT、Claude、Gemini、DeepSeek、Grok 及 Llama 等，也涵盖了必须付费订阅的各种 Pro 与 Max 模型，并根据使用者的回馈制定 Yupp AI VIBE排行榜。

03960

基准测试 # Yupp # 大语言模型

AI Arena

为了全面评估 Qwen-Image 的通用图像生成能力，并将其与最先进的闭源 API 进行客观比较，阿里推出了 AI Arena，一个基于 Elo 评分系统的开放基准测试平台。AI Arena 提供了一个公平、透明和动态的模型评估环境。

03360

基准测试 # AI Arena # Qwen-Image

AI-Trader

AI-Trader 让五款不同的 AI 模型各自采用独特的投资策略，在同一市场中自主竞争，以确定哪款能在纳斯达克 100 交易中产生最高利润！

03110

基准测试 # AI-Trader # 纳斯达克

ARC Prize

由著名AI研究员弗朗索瓦·肖莱（François Chollet）共同创立的非营利组织Arc Prize基金会宣布，他们开发了一项名为ARC-AGI-2的新测试。这项测试旨在更准确地衡量领先AI模型的通用智能水平，然而，它却难倒了大多数现有的AI模型。

03060

基准测试 # ARC Prize # ARC-AGI-2 # Claude 3.7 Sonnet

Game Arena

Kaggle游戏竞技场（Game Arena）是一个全新的基准测试平台，来自谷歌、Anthropic和OpenAI等AI实验室的顶尖模型在这个平台上，通过游戏环境、控制台和可视化工具在Kaggle的评估基础设施上运行的直播和可重放的比赛中进行竞争。模拟比赛的结果将作为Kaggle基准测试中的个人排行榜发布和维护。

03030

基准测试 # Game Arena # Kaggle # 谷歌

VAE Comparison Tool

VAE Comparison Tool

这款 VAE 对比工具为用户提供了一个简单而强大的平台，用于评估和比较不同 VAE 的重建能力。通过差异图、重建图像和差异总和三种输出形式，用户可以从多个角度全面了解每个 VAE 的优缺点。

02940

基准测试 # VAE Comparison Tool # VAE对比

VideoGameBench

VideoGameBench是一个强大的工具，为评估视觉-语言模型在视频游戏中的多模态理解与推理能力提供了一个标准化的平台。通过支持多种游戏平台和类型，它为研究人员和开发者提供了一个灵活且多样化的测试环境。

02930

基准测试 # VideoGameBench # 多模态 # 视觉-语言模型

MCPMark

MCPMark 的推出，填补了当前在**模型代理能力系统化评测**方面的空白。它不仅提供了一套标准化的测试框架，更强调安全性、可复现性与易用性，是推动大模型走向“可用智能体”的重要基础设施。

02850

基准测试 # MCP # MCPMark # 智能体

3D Arena

Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集，并通过 ELO 排名系统提供可靠、可解释的模型评估结果。

02810

基准测试 # 3D Arena # 3D 生成模型

Code Arena

LMArena正式推出 Code Arena，一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同，Code Arena 聚焦于完整软件开发周期，记录模型从需求理解到部署的全过程行为。

02690

基准测试 # Code Arena # LMArena

LiveMCPBench

LiveMCPBench 提供了一个全面的基准测试框架，用于评估 LLM 代理在大规模 MCP 环境中的任务执行能力。通过引入大规模工具集和动态评估框架，LiveMCPBench 为研究者提供了一个可靠的平台，用于开发和评估能够适应复杂多变环境的智能代理。

02680

基准测试 # LiveMCPBench # MCP

LoCoDiff

LoCoDiff 不只是一个性能榜单，更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实：即使模型宣称支持百万 token 上下文，也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中，记忆衰减、注意力分散等问题依然严峻。

02670

基准测试 # LoCoDiff # 长上下文评估基准

Music Arena

Music Arena 通过提供一个标准化的人类偏好评估平台，为文本到音乐生成领域带来了新的评估方法和数据资源。它不仅解决了当前 TTM 领域中缺乏大规模、可再生人类偏好数据的问题，还通过透明的数据发布政策和音乐领域定制的功能，推动了该领域的研究和应用发展。

02650

基准测试 # Music Arena # 音乐模型 # 音乐竞技场

AI Ping

AI Ping 是一个面向大模型使用者，提供全面、客观、真实的大模型服务评测平台。官方精心打造的大模型服务性能排行榜，由专业团队定期、高频率地输出测评结果，并进行实时更新，清晰地呈现每个供应商在不同时间段的数据表现，为开发者提供即时、详细的数据参考服务，助力行业提升AI产品应用的开发效率与服务质量。

02600

基准测试 # AI Ping # 大模型服务性能评测

SciArena

SciArena是一个开放且协作的平台，直接吸引科学界参与评估科学文献任务中的基础模型。这种基于众包的、面对面的语言模型评估方法已在通用领域由类似 Chatbot Arena 的平台成功开创。

02550

基准测试 # Ai2 # SciArena # 艾伦人工智能研究所

Hi3DEval

Hi3DEval不仅是一个评估工具，更是推动3D生成模型向更高保真度、更强可控性发展的基础设施。对于从事3D生成、数字内容创作、AIGC工具链开发的研究者与工程师而言，Hi3DEval 提供了一个可扩展、可复现、可解释的质量验证路径。

02390

基准测试 # 3D模型 # Hi3DBench # Hi3DEval

CodeArena

CodeArena 是一个面向开发者和 AI 研究者的开源工具，它不仅为开源编码模型提供了一个公平竞技的舞台，也为社区提供了一个可视化、可交互、可部署的模型评估平台。随着越来越多的模型加入，CodeArena 有望成为开源编程模型领域的重要参考工具。

02190

基准测试 # CodeArena # 模型对比 # 编码模型

BrowseComp-Plus

BrowseComp-Plus

当面对“某位科学家在2010年发表的论文是否引用了某项早期成...

01980

基准测试 # BrowseComp-Plus # 深度研究代理

NoCode-bench

NoCode-bench 的结果或许让人失望，但也正是这种“真实感”使其成为推动技术发展的关键一步。当 AI 能稳定地将一句“增加导出功能”转化为正确、可测、可部署的代码时，那才是无代码开发真正成熟的时刻。在此之前，我们仍需脚踏实地，用像 NoCode-bench 这样的基准，一步步丈量差距，逼近目标。

01890

基准测试 # AI 编程助手 # NoCode-bench # 大语言模型

Alpha Arena

nof1.ai 启动一项前所未有的实盘实验：向 6 个顶级大模型各提供 1 万美元本金，在 Hyperliquid 平台上自主交易 BTC、ETH、SOL 等主流加密货币永续合约。所有操作完全由 AI 自主决策，人类不得干预，盈亏真实承担。

01820

基准测试 # Alpha Arena # nof1.ai

InferenceMax

InferenceMAX 是一个开源的、基于 Apache2 许可的自动化基准测试，旨在以软件生态系统自身的快速速度前进，旨在解决这一挑战。

01520

基准测试 # AI 推理 # InferenceMax

WildScore

WildScore 的发布，标志着 AI 音乐理解评估进入“真实世界”阶段。它不再满足于“识别音符”，而是要求模型真正理解乐谱背后的音乐逻辑。测试结果也清晰揭示了当前 MLLM 的局限：视觉符号解析仍是瓶颈，模态对齐尚未成熟。

01070

基准测试 # WildScore # 多模态大语言模型 # 音乐理论