OpenAI 推出基准测试SWE-Lancer:评估 AI 模型在真实软件工程任务中的表现 OpenAI 最近推出了 SWE-Lancer,这是一个基于真实世界软件工程任务的基准测试平台。SWE-Lancer 包含超过 1400 个来自 Upwork 的自由软件工程任务,这些任务的总报酬价值... 新技术# OpenAI# SWE-Lancer# 基准测试 3天前0100