SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    基准测试

    共 36 篇网址
    AI绘画AI视频AI音乐AI助手AI语音AI编程3DAI工具基准测试AI搜索模型API实用工具AI数字人服务托管AI硬件影音视频文件共享无版权资源浏览器操作系统图形图像爱学习信息查询下载服务学习办公AI辅助趣味网站
    排序
    发布更新浏览点赞
    HumaneBench

    HumaneBench

    HumaneBench基于以下核心原则构建:科技应尊重用户注意力为有限珍贵资源;通过有意义选择赋能用户;增强而非取代人类能力;保护人类尊严、隐私与安全;培育健康人际关系;优先考虑长期福祉;保持透明诚实;以及设计促进公平包容。
    0150
    基准测试# HumaneBench# 心理健康
    DPAI Arena

    DPAI Arena

    DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。
    0130
    基准测试# DPAI Arena# JetBrains# 软件工程
    Code Arena

    Code Arena

    LMArena正式推出 Code Arena,一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同,Code Arena 聚焦于完整软件开发周期,记录模型从需求理解到部署的全过程行为。
    01690
    基准测试# Code Arena# LMArena
    PokerBattle

    PokerBattle

    PokerBattle.ai 是一个让多个大语言模型(LLM)在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同,扑克是典型的不完美信息博弈:玩家无法看到对手底牌,每一步决策都需在不确定性中权衡风险与收益。
    0270
    基准测试# PokerBattle# 大语言模型# 德州扑克
    AI-Trader 

    AI-Trader 

    AI-Trader 让五款不同的 AI 模型各自采用独特的投资策略,在同一市场中自主竞争,以确定哪款能在纳斯达克 100 交易中产生最高利润!
    01950
    基准测试# AI-Trader# 纳斯达克
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
    09740
    基准测试# NOFX# 加密货币
    AITradeGame

    AITradeGame

    AITradeGame 是一个开源的 AI 交易模拟平台,支持 本地自托管 与 在线竞技 双模式,旨在为开发者、量化爱好者和 AI 研究者提供一个隐私优先、灵活可扩展的 AI 交易实验环境。
    0480
    基准测试# AI 交易模拟平台# AITradeGame
    Alpha Arena

    Alpha Arena

    nof1.ai 启动一项前所未有的实盘实验:向 6 个顶级大模型各提供 1 万美元本金,在 Hyperliquid 平台上自主交易 BTC、ETH、SOL 等主流加密货币永续合约。所有操作完全由 AI 自主决策,人类不得干预,盈亏真实承担。
    01220
    基准测试# Alpha Arena# nof1.ai
    InferenceMax

    InferenceMax

    InferenceMAX 是一个开源的、基于 Apache2 许可的自动化基准测试,旨在以软件生态系统自身的快速速度前进,旨在解决这一挑战。
    0690
    基准测试# AI 推理# InferenceMax
    MCPMark

    MCPMark

    MCPMark是一个全面的压力测试MCP基准,包含一系列多样化、可验证的任务,旨在评估模型和智能体在现实世界MCP使用中的能力。MCPMark将持续更新新兴的MCP服务器,以跟上充满活力的生态系统步伐!
    0550
    基准测试# MCP# MCPMark# 大语言模型
    Music Arena

    Music Arena

    Music Arena 是世界上第一个面向公众开放的音乐生成模型评测平台。在这里,AI 创作的旋律不再是黑箱输出,而是可以被真实听众直接比较、投票和评判的对象。我们相信,最好的评估方式不是参数规模或技术文档,而是人类的耳朵。
    0690
    基准测试# Music Arena# 音乐生成模型
    AI Ping

    AI Ping

    AI Ping 是一个面向大模型使用者,提供全面、客观、真实的大模型服务评测平台。官方精心打造的大模型服务性能排行榜,由专业团队定期、高频率地输出测评结果,并进行实时更新,清晰地呈现每个供应商在不同时间段的数据表现,为开发者提供即时、详细的数据参考服务,助力行业提升AI产品应用的开发效率与服务质量。
    01990
    基准测试# AI Ping# 大模型服务性能评测
    WildScore

    WildScore

    WildScore 的发布,标志着 AI 音乐理解评估进入“真实世界”阶段。它不再满足于“识别音符”,而是要求模型真正理解乐谱背后的音乐逻辑。测试结果也清晰揭示了当前 MLLM 的局限:视觉符号解析仍是瓶颈,模态对齐尚未成熟。
    0830
    基准测试# WildScore# 多模态大语言模型# 音乐理论
    MCPMark

    MCPMark

    MCPMark 的推出,填补了当前在**模型代理能力系统化评测**方面的空白。它不仅提供了一套标准化的测试框架,更强调安全性、可复现性与易用性,是推动大模型走向“可用智能体”的重要基础设施。
    02160
    基准测试# MCP# MCPMark# 智能体
    LiveMCPBench

    LiveMCPBench

    LiveMCPBench 提供了一个全面的基准测试框架,用于评估 LLM 代理在大规模 MCP 环境中的任务执行能力。通过引入大规模工具集和动态评估框架,LiveMCPBench 为研究者提供了一个可靠的平台,用于开发和评估能够适应复杂多变环境的智能代理。
    01890
    基准测试# LiveMCPBench# MCP
    BrowseComp-Plus

    BrowseComp-Plus

    当面对“某位科学家在2010年发表的论文是否引用了某项早期成...
    01420
    基准测试# BrowseComp-Plus# 深度研究代理
    NoCode-bench

    NoCode-bench

    NoCode-bench 的结果或许让人失望,但也正是这种“真实感”使其成为推动技术发展的关键一步。当 AI 能稳定地将一句“增加导出功能”转化为正确、可测、可部署的代码时,那才是无代码开发真正成熟的时刻。在此之前,我们仍需脚踏实地,用像 NoCode-bench 这样的基准,一步步丈量差距,逼近目标。
    01480
    基准测试# AI 编程助手# NoCode-bench# 大语言模型
    Game Arena

    Game Arena

    Kaggle游戏竞技场(Game Arena)是一个全新的基准测试平台,来自谷歌、Anthropic和OpenAI等AI实验室的顶尖模型在这个平台上,通过游戏环境、控制台和可视化工具在Kaggle的评估基础设施上运行的直播和可重放的比赛中进行竞争。模拟比赛的结果将作为Kaggle基准测试中的个人排行榜发布和维护。
    02220
    基准测试# Game Arena# Kaggle# 谷歌
    Hi3DEval

    Hi3DEval

    Hi3DEval不仅是一个评估工具,更是推动3D生成模型向更高保真度、更强可控性发展的基础设施。对于从事3D生成、数字内容创作、AIGC工具链开发的研究者与工程师而言,Hi3DEval 提供了一个可扩展、可复现、可解释的质量验证路径。
    02210
    基准测试# 3D模型# Hi3DBench# Hi3DEval
    LoCoDiff

    LoCoDiff

    LoCoDiff 不只是一个性能榜单,更是对当前长上下文模型能力边界的诚实检验。它揭示了一个事实:即使模型宣称支持百万 token 上下文,也不意味着能在实际任务中有效利用这些信息。尤其是在需要持续状态跟踪的场景中,记忆衰减、注意力分散等问题依然严峻。
    01980
    基准测试# LoCoDiff# 长上下文评估基准
    AI Arena

    AI Arena

    为了全面评估 Qwen-Image 的通用图像生成能力,并将其与最先进的闭源 API 进行客观比较,阿里推出了 AI Arena,一个基于 Elo 评分系统的开放基准测试平台。AI Arena 提供了一个公平、透明和动态的模型评估环境。
    02270
    基准测试# AI Arena# Qwen-Image
    Music Arena

    Music Arena

    Music Arena 通过提供一个标准化的人类偏好评估平台,为文本到音乐生成领域带来了新的评估方法和数据资源。它不仅解决了当前 TTM 领域中缺乏大规模、可再生人类偏好数据的问题,还通过透明的数据发布政策和音乐领域定制的功能,推动了该领域的研究和应用发展。
    02030
    基准测试# Music Arena# 音乐模型# 音乐竞技场
    CodeArena

    CodeArena

    CodeArena 是一个面向开发者和 AI 研究者的开源工具,它不仅为开源编码模型提供了一个公平竞技的舞台,也为社区提供了一个可视化、可交互、可部署的模型评估平台。随着越来越多的模型加入,CodeArena 有望成为开源编程模型领域的重要参考工具。
    01710
    基准测试# CodeArena# 模型对比# 编码模型
    SciArena

    SciArena

    SciArena是一个开放且协作的平台,直接吸引科学界参与评估科学文献任务中的基础模型。这种基于众包的、面对面的语言模型评估方法已在通用领域由类似 Chatbot Arena 的平台成功开创。
    02000
    基准测试# Ai2# SciArena# 艾伦人工智能研究所
    3D Arena

    3D Arena

    Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集,并通过 ELO 排名系统提供可靠、可解释的模型评估结果。
    02290
    基准测试# 3D Arena# 3D 生成模型
    Yupp

    Yupp

    Yupp正式推出人类评估系统 ,邀请使用者协助评估全球逾 500 个大语言模型,包括 ChatGPT、Claude、Gemini、DeepSeek、Grok 及 Llama 等,也涵盖了必须付费订阅的各种 Pro 与 Max 模型,并根据使用者的回馈制定 Yupp AI VIBE排行榜。
    03010
    基准测试# Yupp# 大语言模型
    VideoGameBench

    VideoGameBench

    VideoGameBench是一个强大的工具,为评估视觉-语言模型在视频游戏中的多模态理解与推理能力提供了一个标准化的平台。通过支持多种游戏平台和类型,它为研究人员和开发者提供了一个灵活且多样化的测试环境。
    02780
    基准测试# VideoGameBench# 多模态# 视觉-语言模型
    ARC Prize

    ARC Prize

    由著名AI研究员弗朗索瓦·肖莱(François Chollet)共同创立的非营利组织Arc Prize基金会宣布,他们开发了一项名为ARC-AGI-2的新测试。这项测试旨在更准确地衡量领先AI模型的通用智能水平,然而,它却难倒了大多数现有的AI模型。
    02870
    基准测试# ARC Prize# ARC-AGI-2# Claude 3.7 Sonnet
    MC-Bench

    MC-Bench

    MC-Bench允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式,不仅能够以一种有趣且直观的方式评估AI模型的能力,还能够让更多的人参与到对AI进展的理解和评估中来。
    03050
    基准测试# AI模型# MC-Bench# 我的世界
    imgsys

    imgsys

    imgsys.org 是一个专注于开源文本引导图像生成模型的评估平台,通过用户偏好数据的收集和开源,推动图像生成领域的研究和开发。
    04800
    基准测试# Fal.ai# imgsys# 文生图模型
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    MuMuAINovel

    MuMuAINovel

    MuMuAINovel 是一款开源的 AI 小说创作辅助工具,专为写作者设计。它不替代你的创意,而是帮你把想法快速转化为结构完整、设定一致、可扩展的长篇故事。
    OiiOii AI

    OiiOii AI

    OiiOii.ai 是一个基于多智能体架构的动画生成平台,其核心目标是将动画制作从线性协作流程,转变为端到端的自动化生成。用户只需上传一张图片或输入一段文字描述,系统即可自动完成剧本生成、分镜设计、角色建模、镜头调度、配乐合成与最终渲染,输出一段完整动画视频。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
     Hitem3D 

     Hitem3D 

    Hitem3D由Math Magic开发,是一款基于专有高分辨率AI模型Sparc3D的3D生成工具。只需上传一张参考图像,即可即时生成行业领先品质的工作室级3D资产,极大降低了3D创作的门槛。这一突破性解决方案赋能游戏开发者、设计师和3D艺术家高效释放创意,加速从概念到部署的创作流程。
    查看完整榜单