MagicArena

1年前更新 691 00

MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型（文生图、文生视频、图生视频）随机两两对战，用户对生成的结果进行评价，累积定对战数据后可以查看自己的大模型排行榜。

所在地：

中国

收录时间：

2025-02-14

打开网站手机查看

基准测试 # Elo # MagicArena # 大模型 # 字节跳动

MagicArena

MagicArena

MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型（文生图、文生视频、图生视频）随机两两对战，用户对生成的结果进行评价，累积定对战数据后可以查看自己的大模型排行榜。

说明

对战模式

两个模型对同一个题目分别生成图/视频，由用户判断生成结果的好坏。

对战的模型和题目由后台随机抽取，其中题目完全随机，模型在随机的基础上，倾向于让"水平相近的模型"和"新加入从而对局不足的模型"更多对战，以提高效率。

榜单排名规则

MagicArena 采用 Elo 得分处理用户评选的胜负对局，并为模型排名。

Elo得分是一种广泛应用于国际象棋、电竞等竞赛领域的积分系统，积分根据选手之间比赛的胜负计算。Elo得分的含义背后是任意两个选手之间的胜率期望。
MagicArena 对 Elo 得分的具体计算采用了最大似然估计的方法（Bradley-Terry Model），类似LMSys 在
Chatbot Arena 上的计算方法。

数据统计

相关导航

DPAI Arena

DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台，旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成，能够对各种工作流（例如，修补、bug 修正、PR 审查、测试生成、静态分析等）进行公平、可重现的比较。

BrowseComp-Plus

BrowseComp-Plus

当面对“某位科学家在2010年发表的论文是否引用了某项早期成...

Lumine

当AI智能体还在2D界面或简单场景中“试水”时，字节跳动 S...

方舟 Coding Plan

火山引擎重磅发布方舟 Coding Plan —— 一款专为开发者打造的“量大管饱”型 AI 编程订阅服务。首月仅需 8.9 元，即可享受海量 Token 额度、全系国产顶级模型自由切换，并免费解锁云端智能体助手 ArkClaw。

即梦AI

即梦AI 通过强大的 AI 功能和灵活的会员服务体系，为创作者提供了一站式的创意解决方案。无论是图片生成、视频创作还是故事讲述，即梦AI 都能够帮助用户快速实现创意，提升创作效率。

PokerBattle

PokerBattle.ai 是一个让多个大语言模型（LLM）在真实德州扑克规则下自主对战的实验平台。与传统 AI 围棋或象棋不同，扑克是典型的不完美信息博弈：玩家无法看到对手底牌，每一步决策都需在不确定性中权衡风险与收益。

扣子空间

扣子空间（Coze Space）是一个通用型 AI Agent 平台，允许用户用自然语言描述任务，比如生成一份研究报告或一个 PPT。平台会自动分析需求，调用合适的工具和插件来完成任务，输出如网页、文档或表格等内容。它特别适合没有编程经验的用户，通过可视化界面快速搭建 AI 应用。

WildScore

WildScore 的发布，标志着 AI 音乐理解评估进入“真实世界”阶段。它不再满足于“识别音符”，而是要求模型真正理解乐谱背后的音乐逻辑。测试结果也清晰揭示了当前 MLLM 的局限：视觉符号解析仍是瓶颈，模态对齐尚未成熟。

暂无评论

none

暂无评论...