
Code Arena
LMArena正式推出 Code Arena,一个面向 AI 编程模型的新型评估平台。与传统仅测试代码正确性或通过单元测试的基准不同,Code Arena 聚焦于完整软件开发周期,记录模型从需求理解到部署的全过程行为。
MagicArena是字节跳动推出的一个采用Elo积分机制的视觉生成大模型公开对战平台。平台上有多个视觉生成大模型(文生图、文生视频、图生视频)随机两两对战,用户对生成的结果进行评价,累积定对战数据后可以查看自己的大模型排行榜。
两个模型对同一个题目分别生成图/视频,由用户判断生成结果的好坏。
对战的模型和题目由后台随机抽取,其中题目完全随机,模型在随机的基础上,倾向于让"水平相近的模型"和"新加入从而对局不足的模型"更多对战,以提高效率。
MagicArena 采用 Elo 得分处理用户评选的胜负对局,并为模型排名。








