SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    基准测试

    共 41 篇网址
    AI绘画AI视频AI音乐AI助手AI语音AI编程3DAI工具基准测试AI搜索模型API实用工具AI数字人服务托管AI硬件影音视频文件共享无版权资源浏览器操作系统图形图像爱学习信息查询下载服务学习办公AI辅助趣味应用世界模型
    排序
    发布更新浏览点赞
    MCPMark

    MCPMark

    MCPMark是一个全面的压力测试MCP基准,包含一系列多样化、可验证的任务,旨在评估模型和智能体在现实世界MCP使用中的能力。MCPMark将持续更新新兴的MCP服务器,以跟上充满活力的生态系统步伐!
    01340
    基准测试# MCP# MCPMark# 大语言模型
    WildScore

    WildScore

    WildScore 的发布,标志着 AI 音乐理解评估进入“真实世界”阶段。它不再满足于“识别音符”,而是要求模型真正理解乐谱背后的音乐逻辑。测试结果也清晰揭示了当前 MLLM 的局限:视觉符号解析仍是瓶颈,模态对齐尚未成熟。
    01240
    基准测试# WildScore# 多模态大语言模型# 音乐理论
    AITradeGame

    AITradeGame

    AITradeGame 是一个开源的 AI 交易模拟平台,支持 本地自托管 与 在线竞技 双模式,旨在为开发者、量化爱好者和 AI 研究者提供一个隐私优先、灵活可扩展的 AI 交易实验环境。
    01150
    基准测试# AI 交易模拟平台# AITradeGame
    PokerBattle

    PokerBattle

    PokerBattle.ai 是一个让多个大语言模型(LLM)在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同,扑克是典型的不完美信息博弈:玩家无法看到对手底牌,每一步决策都需在不确定性中权衡风险与收益。
    0970
    基准测试# PokerBattle# 大语言模型# 德州扑克
    Music Arena

    Music Arena

    Music Arena 是世界上第一个面向公众开放的音乐生成模型评测平台。在这里,AI 创作的旋律不再是黑箱输出,而是可以被真实听众直接比较、投票和评判的对象。我们相信,最好的评估方式不是参数规模或技术文档,而是人类的耳朵。
    0900
    基准测试# Music Arena# 音乐生成模型
    忘忧棋牌室

    忘忧棋牌室

    忘忧棋牌室是一个 AI 大模型的“炸金花”竞技场——六位当今主流大模型化身牌桌老炮儿,在这里日夜对局、勾心斗角,而你,只是一名旁观者。
    0650
    基准测试# 忘忧棋牌室# 炸金花
    HumaneBench

    HumaneBench

    HumaneBench基于以下核心原则构建:科技应尊重用户注意力为有限珍贵资源;通过有意义选择赋能用户;增强而非取代人类能力;保护人类尊严、隐私与安全;培育健康人际关系;优先考虑长期福祉;保持透明诚实;以及设计促进公平包容。
    0610
    基准测试# HumaneBench# 心理健康
    DPAI Arena

    DPAI Arena

    DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。
    0440
    基准测试# DPAI Arena# JetBrains# 软件工程
    WorldVQA

    WorldVQA

    WorldVQA是一个旨在衡量多模态大语言模型(MLLM)事实正确性的新基准。尽管最近发布的模型在视觉推理和描述方面展现出了令人印象深刻的能力,但衡量它们在视觉世界知识方面的可靠性仍然是一个挑战。
    0260
    基准测试# Kimi# WorldVQA
    Exa's People Search Benchmarks

    Exa's People Search Benchmarks

    Exa AI推出了“人物搜索”功能——现在,您可以利用这套基于经过精细调优的Exa嵌入技术的混合检索系统,对超过10亿人进行语义搜索。
    0250
    基准测试# Exa AI# Exa's People Search Benchmarks# 人物搜索
    Voice Showdown

    Voice Showdown

    Scale AI 推出了 Voice Showdown,据称这是首个基于真实人类交互视角、通过人类偏好来评估语音 AI 的竞技场。
    0100
    基准测试# Scale AI# Voice Showdown
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    即梦 CLI

    新即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    TapNow

    TapNow

    TapNow是一个面向创作者的专业级 AI 视觉内容平台,支持从脚本撰写、分镜头设计到高保真成片输出的完整流程,单人即可在 1–3 天内完成传统需 4–6 周的影视级项目。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单