基准测试

排序

宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I，用于评估文生图模型（T2I）生成符合现实生活常识的图像的能力。简单来说，就是研究这些模型是否能够根据文字描述...

2年前

05720

OpenAI 最近推出了 SWE-Lancer，这是一个基于真实世界软件工程任务的基准测试平台。SWE-Lancer 包含超过 1400 个来自 Upwork 的自由软件工程任务，这些任务的总报酬价值...

1年前

03050

OpenAI的o3 模型在基准测试中的表现引发了广泛关注和讨论。该公司最初声称的高分与实际测试结果之间的差异，引发了人们对公司透明度和模型测试实践的质疑。 OpenAI的初步声明与实际表现的差异当O...

11个月前

02160

据彭博社报道，Chatbot Arena——这一被主要AI实验室依赖用于测试和推广其AI模型的众包基准测试项目，正在组建一家名为Arena Intelligence Inc.的新公司。新公司的使命与...

12个月前

02160