基准测试

共 41 篇网址

Yupp

Yupp正式推出人类评估系统，邀请使用者协助评估全球逾 500 个大语言模型，包括 ChatGPT、Claude、Gemini、DeepSeek、Grok 及 Llama 等，也涵盖了必须付费订阅的各种 Pro 与 Max 模型，并根据使用者的回馈制定 Yupp AI VIBE排行榜。

05120

基准测试 # Yupp # 大语言模型

VideoGameBench

VideoGameBench是一个强大的工具，为评估视觉-语言模型在视频游戏中的多模态理解与推理能力提供了一个标准化的平台。通过支持多种游戏平台和类型，它为研究人员和开发者提供了一个灵活且多样化的测试环境。

03030

基准测试 # VideoGameBench # 多模态 # 视觉-语言模型

ARC Prize

由著名AI研究员弗朗索瓦·肖莱（François Chollet）共同创立的非营利组织Arc Prize基金会宣布，他们开发了一项名为ARC-AGI-2的新测试。这项测试旨在更准确地衡量领先AI模型的通用智能水平，然而，它却难倒了大多数现有的AI模型。

03300

基准测试 # ARC Prize # ARC-AGI-2 # Claude 3.7 Sonnet

MC-Bench

MC-Bench允许用户挑战不同的AI模型在《我的世界》中根据提示词进行创造性的建造对决。通过这种方式，不仅能够以一种有趣且直观的方式评估AI模型的能力，还能够让更多的人参与到对AI进展的理解和评估中来。

04690

基准测试 # AI模型 # MC-Bench # 我的世界

imgsys

imgsys.org 是一个专注于开源文本引导图像生成模型的评估平台，通过用户偏好数据的收集和开源，推动图像生成领域的研究和开发。

05610

基准测试 # Fal.ai # imgsys # 文生图模型

Open ASR 排行榜

Open ASR 排行榜对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER（字错误率）（⬇️ 越低越好）和 RTFx（实时因子）（⬆️ 越高越好），模型根据其平均 WER 从低到高进行排名。

015,5030

基准测试 # Hugging Face # 语音识别

Artificial Analysis

Artificial Analysis

Artificial Analysis 是一个专注于 AI 模型和提供商分析的网站，通过提供性能基准测试和区域性报告，帮助用户做出明智的选择。其内容覆盖广泛，包括语言模型、图像模型等，并特别关注全球AI趋势，如中国市场的动态。对于需要深入了解 AI 选项的用户，该网站是一个有用的工具，尤其是在性能比较和趋势分析方面。

07950

基准测试 # AI模型 # Artificial Analysis

VAE Comparison Tool

VAE Comparison Tool

这款 VAE 对比工具为用户提供了一个简单而强大的平台，用于评估和比较不同 VAE 的重建能力。通过差异图、重建图像和差异总和三种输出形式，用户可以从多个角度全面了解每个 VAE 的优缺点。

03120

基准测试 # VAE Comparison Tool # VAE对比

WebDev Arena

WebDev Arena 是一个实时的 AI编程竞赛平台，由 LMArena 开发，各种 AI代码模型在其中进行面对面的 Web 开发挑战。

08770

基准测试 # AI编程 # WebDev Arena # 网页开发

LMArena

Chatbot Arena是一个开放平台，专注于通过人类偏好评估大型语言模型（LLMs）的性能。该平台由加州大学伯克利分校的SkyLab和LMSYS研究团队开发，旨在为LLMs提供一个公正、透明的评估环境。

04850

基准测试 # Chatbot Arena # LMArena # 大语言模型

MagicArena

MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型（文生图、文生视频、图生视频）随机两两对战，用户对生成的结果进行评价，累积定对战数据后可以查看自己的大模型排行榜。

06940

基准测试 # Elo # MagicArena # 大模型