基准测试CommonsensenT2I:用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力 宾夕法尼亚大学和加州大学圣塔芭芭拉分校的研究人员推出基准测试CommonsensenT2I,用于评估文生图模型(T2I)生成符合现实生活常识的图像的能力。简单来说,就是研究这些模型是否能够根据文字描述... 新技术# CommonsensenT2I# 基准测试# 文生图模型 8个月前03580
OpenAI 推出基准测试SWE-Lancer:评估 AI 模型在真实软件工程任务中的表现 OpenAI 最近推出了 SWE-Lancer,这是一个基于真实世界软件工程任务的基准测试平台。SWE-Lancer 包含超过 1400 个来自 Upwork 的自由软件工程任务,这些任务的总报酬价值... 新技术# OpenAI# SWE-Lancer# 基准测试 3天前0100