
DPAI Arena
DPAI Arena 宣称是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。
MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型(文生图、文生视频、图生视频)随机两两对战,用户对生成的结果进行评价,累积定对战数据后可以查看自己的大模型排行榜。
两个模型对同一个题目分别生成图/视频,由用户判断生成结果的好坏。
对战的模型和题目由后台随机抽取,其中题目完全随机,模型在随机的基础上,倾向于让"水平相近的模型"和"新加入从而对局不足的模型"更多对战,以提高效率。
MagicArena 采用 Elo 得分处理用户评选的胜负对局,并为模型排名。








