SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    基准测试

    共 41 篇网址
    AI绘画AI视频AI音乐AI助手AI语音AI编程3DAI工具基准测试AI搜索模型API实用工具AI数字人服务托管AI硬件影音视频文件共享无版权资源浏览器操作系统图形图像爱学习信息查询下载服务学习办公AI辅助趣味应用世界模型
    排序
    发布更新浏览点赞
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    015,5010
    基准测试# Hugging Face# 语音识别
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
    01,6840
    基准测试# NOFX# 加密货币
    WebDev Arena

    WebDev Arena

    WebDev Arena 是一个实时的 AI编程竞赛平台,由 LMArena 开发,各种 AI代码模型在其中进行面对面的 Web 开发挑战。
    08770
    基准测试# AI编程# WebDev Arena# 网页开发
    Artificial Analysis

    Artificial Analysis

    Artificial Analysis 是一个专注于 AI 模型和提供商分析的网站,通过提供性能基准测试和区域性报告,帮助用户做出明智的选择。其内容覆盖广泛,包括语言模型、图像模型等,并特别关注全球AI趋势,如中国市场的动态。对于需要深入了解 AI 选项的用户,该网站是一个有用的工具,尤其是在性能比较和趋势分析方面。
    07950
    基准测试# AI模型# Artificial Analysis
    MagicArena

    MagicArena

    MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型(文生图、文生视频、图生视频)随机两两对战,用户对生成的结果进行评价,累积定对战数据后可以查看自己的大模型排行榜。
    06940
    基准测试# Elo# MagicArena# 大模型
    imgsys

    imgsys

    imgsys.org 是一个专注于开源文本引导图像生成模型的评估平台,通过用户偏好数据的收集和开源,推动图像生成领域的研究和开发。
    05610
    基准测试# Fal.ai# imgsys# 文生图模型
    Yupp

    Yupp

    Yupp正式推出人类评估系统 ,邀请使用者协助评估全球逾 500 个大语言模型,包括 ChatGPT、Claude、Gemini、DeepSeek、Grok 及 Llama 等,也涵盖了必须付费订阅的各种 Pro 与 Max 模型,并根据使用者的回馈制定 Yupp AI VIBE排行榜。
    05120
    基准测试# Yupp# 大语言模型
    LMArena

    LMArena

    Chatbot Arena是一个开放平台,专注于通过人类偏好评估大型语言模型(LLMs)的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发,旨在为LLMs提供一个公正、透明的评估环境。
    04850
    基准测试# Chatbot Arena# LMArena# 大语言模型
    MC-Bench

    MC-Bench

    MC-Bench允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式,不仅能够以一种有趣且直观的方式评估AI模型的能力,还能够让更多的人参与到对AI进展的理解和评估中来。
    04690
    基准测试# AI模型# MC-Bench# 我的世界
    AI Arena

    AI Arena

    为了全面评估 Qwen-Image 的通用图像生成能力,并将其与最先进的闭源 API 进行客观比较,阿里推出了 AI Arena,一个基于 Elo 评分系统的开放基准测试平台。AI Arena 提供了一个公平、透明和动态的模型评估环境。
    03980
    基准测试# AI Arena# Qwen-Image
    Game Arena

    Game Arena

    Kaggle游戏竞技场(Game Arena)是一个全新的基准测试平台,来自谷歌、Anthropic和OpenAI等AI实验室的顶尖模型在这个平台上,通过游戏环境、控制台和可视化工具在Kaggle的评估基础设施上运行的直播和可重放的比赛中进行竞争。模拟比赛的结果将作为Kaggle基准测试中的个人排行榜发布和维护。
    03850
    基准测试# Game Arena# Kaggle# 谷歌
    MCPMark

    MCPMark

    MCPMark 的推出,填补了当前在**模型代理能力系统化评测**方面的空白。它不仅提供了一套标准化的测试框架,更强调安全性、可复现性与易用性,是推动大模型走向“可用智能体”的重要基础设施。
    03830
    基准测试# MCP# MCPMark# 智能体
    SciArena

    SciArena

    SciArena是一个开放且协作的平台,直接吸引科学界参与评估科学文献任务中的基础模型。这种基于众包的、面对面的语言模型评估方法已在通用领域由类似 Chatbot Arena 的平台成功开创。
    03790
    基准测试# Ai2# SciArena# 艾伦人工智能研究所
    PinchBench

    PinchBench

    PinchBench 是一个基准测试系统,用于评估作为 OpenClaw 编码智能体的大语言模型。我们在不同模型上运行同一组真实世界任务,并衡量成功率、速度和成本,以帮助开发者为其用例选择合适的模型。
    03760
    基准测试# OpenClaw# PinchBench
    AI-Trader 

    AI-Trader 

    AI-Trader 让五款不同的 AI 模型各自采用独特的投资策略,在同一市场中自主竞争,以确定哪款能在纳斯达克 100 交易中产生最高利润!
    03730
    基准测试# AI-Trader# 纳斯达克
    Code Arena

    Code Arena

    LMArena正式推出 Code Arena,一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同,Code Arena 聚焦于完整软件开发周期,记录模型从需求理解到部署的全过程行为。
    03480
    基准测试# Code Arena# LMArena
    AI Ping

    AI Ping

    AI Ping 是一个面向大模型使用者,提供全面、客观、真实的大模型服务评测平台。官方精心打造的大模型服务性能排行榜,由专业团队定期、高频率地输出测评结果,并进行实时更新,清晰地呈现每个供应商在不同时间段的数据表现,为开发者提供即时、详细的数据参考服务,助力行业提升AI产品应用的开发效率与服务质量。
    03470
    基准测试# AI Ping# 大模型服务性能评测
    3D Arena

    3D Arena

    Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集,并通过 ELO 排名系统提供可靠、可解释的模型评估结果。
    03390
    基准测试# 3D Arena# 3D 生成模型
    ARC Prize

    ARC Prize

    由著名AI研究员弗朗索瓦·肖莱(François Chollet)共同创立的非营利组织Arc Prize基金会宣布,他们开发了一项名为ARC-AGI-2的新测试。这项测试旨在更准确地衡量领先AI模型的通用智能水平,然而,它却难倒了大多数现有的AI模型。
    03300
    基准测试# ARC Prize# ARC-AGI-2# Claude 3.7 Sonnet
    LiveMCPBench

    LiveMCPBench

    LiveMCPBench 提供了一个全面的基准测试框架,用于评估 LLM 代理在大规模 MCP 环境中的任务执行能力。通过引入大规模工具集和动态评估框架,LiveMCPBench 为研究者提供了一个可靠的平台,用于开发和评估能够适应复杂多变环境的智能代理。
    03250
    基准测试# LiveMCPBench# MCP
    VAE Comparison Tool

    VAE Comparison Tool

    这款 VAE 对比工具为用户提供了一个简单而强大的平台,用于评估和比较不同 VAE 的重建能力。通过差异图、重建图像和差异总和三种输出形式,用户可以从多个角度全面了解每个 VAE 的优缺点。
    03120
    基准测试# VAE Comparison Tool# VAE对比
    LoCoDiff

    LoCoDiff

    LoCoDiff 不只是一个性能榜单,更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实:即使模型宣称支持百万 token 上下文,也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中,记忆衰减、注意力分散等问题依然严峻。
    03110
    基准测试# LoCoDiff# 长上下文评估基准
    VideoGameBench

    VideoGameBench

    VideoGameBench是一个强大的工具,为评估视觉-语言模型在视频游戏中的多模态理解与推理能力提供了一个标准化的平台。通过支持多种游戏平台和类型,它为研究人员和开发者提供了一个灵活且多样化的测试环境。
    03030
    基准测试# VideoGameBench# 多模态# 视觉-语言模型
    Music Arena

    Music Arena

    Music Arena 通过提供一个标准化的人类偏好评估平台,为文本到音乐生成领域带来了新的评估方法和数据资源。它不仅解决了当前 TTM 领域中缺乏大规模、可再生人类偏好数据的问题,还通过透明的数据发布政策和音乐领域定制的功能,推动了该领域的研究和应用发展。
    02940
    基准测试# Music Arena# 音乐模型# 音乐竞技场
    CodeArena

    CodeArena

    CodeArena 是一个面向开发者和 AI 研究者的开源工具,它不仅为开源编码模型提供了一个公平竞技的舞台,也为社区提供了一个可视化、可交互、可部署的模型评估平台。随着越来越多的模型加入,CodeArena 有望成为开源编程模型领域的重要参考工具。
    02830
    基准测试# CodeArena# 模型对比# 编码模型
    Hi3DEval

    Hi3DEval

    Hi3DEval不仅是一个评估工具,更是推动3D生成模型向更高保真度、更强可控性发展的基础设施。对于从事3D生成、数字内容创作、AIGC工具链开发的研究者与工程师而言,Hi3DEval 提供了一个可扩展、可复现、可解释的质量验证路径。
    02660
    基准测试# 3D模型# Hi3DBench# Hi3DEval
    BrowseComp-Plus

    BrowseComp-Plus

    当面对“某位科学家在2010年发表的论文是否引用了某项早期成...
    02650
    基准测试# BrowseComp-Plus# 深度研究代理
    Alpha Arena

    Alpha Arena

    nof1.ai 启动一项前所未有的实盘实验:向 6 个顶级大模型各提供 1 万美元本金,在 Hyperliquid 平台上自主交易 BTC、ETH、SOL 等主流加密货币永续合约。所有操作完全由 AI 自主决策,人类不得干预,盈亏真实承担。
    02390
    基准测试# Alpha Arena# nof1.ai
    NoCode-bench

    NoCode-bench

    NoCode-bench 的结果或许让人失望,但也正是这种“真实感”使其成为推动技术发展的关键一步。当 AI 能稳定地将一句“增加导出功能”转化为正确、可测、可部署的代码时,那才是无代码开发真正成熟的时刻。在此之前,我们仍需脚踏实地,用像 NoCode-bench 这样的基准,一步步丈量差距,逼近目标。
    02370
    基准测试# AI 编程助手# NoCode-bench# 大语言模型
    InferenceMax

    InferenceMax

    InferenceMAX 是一个开源的、基于 Apache2 许可的自动化基准测试,旨在以软件生态系统自身的快速速度前进,旨在解决这一挑战。
    02290
    基准测试# AI 推理# InferenceMax
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    即梦 CLI

    新即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单