OpenAI在今天发布了新的开发者工具Responses API和Agents SDK,帮助开发者创建功能强大的AI代理。这些新工具不仅扩展了开发者的工具箱,也为实现更加复杂和多样化的应用提供了可能。
Responses API:多功能的构建块
Responses API集成了网络搜索、文件浏览以及计算机使用(computer use)等功能,为开发者提供了一套全面的构建块来创建能够执行特定任务的AI代理。以下是其主要特性:
- 网络搜索:基于与ChatGPT搜索相同的模型,允许开发者利用GPT-4o和GPT-4o mini访问实时网络信息及引用。
- 计算机使用:借助Operator模型,使AI代理能够代表用户执行各种任务。
- 文档搜索:支持对大量文档进行高效搜索,适用于客户支持或法律助理等领域的工作需求。
OpenAI平台产品负责人Olivier Godement指出,尽管公司已经能够自行构建一些AI代理(如Deep Research和Operator),但考虑到世界的复杂性和不同行业的多样性,提供这样的基础构建块对于促进更广泛的创新至关重要。
Agents SDK:编排AI代理工作流程
除了Responses API,OpenAI还推出了Agents SDK,这是一个用于“编排”多个AI代理工作流程的框架。它使得开发者可以更容易地管理和协调多个Responses API实例,以解决更为复杂的任务。

OpenAI官方介绍:
今天,我们发布了第一组构建模块,以帮助开发者和企业打造实用且可靠的代理。我们将代理视为代表用户独立完成任务的系统。在过去一年中,我们引入了新的模型功能——如高级推理、多模态交互和新的安全技术——这些为我们的模型处理构建代理所需的复杂多步骤任务奠定了基础。然而,客户反馈表明,将这些功能转化为生产就绪的代理具有挑战性,通常需要大量的提示迭代和自定义编排逻辑,且缺乏足够的可见性或内置支持。
为了应对这些挑战,我们推出了一套新的API和工具,专门设计用于简化代理应用的开发:
新的 Responses API,结合了Chat Completions API的简单性与Assistants API的工具使用能力,用于构建代理 内置工具,包括 网络搜索、文件搜索和 计算机使用 新的 Agents SDK,用于编排单代理和多代理工作流程 集成的 可观察性工具,用于追踪和检查代理工作流程执行
这些新工具简化了代理的核心逻辑、编排和交互,使开发者开始构建代理变得显著更容易。在接下来的几周和几个月中,我们计划发布更多工具和功能,以进一步简化和加速在我们的平台上构建代理应用。
介绍 Responses API
Responses API 是我们利用 OpenAI 内置工具构建代理的新API原语。它结合了 Chat Completions 的简单性与 Assistants API 的工具使用能力。随着模型功能的不断演进,我们相信 Responses API 将为开发者构建代理应用提供更灵活的基础。通过一次 Responses API 调用,开发者将能够使用多种工具和模型轮次解决日益复杂的任务。

首先,Responses API 将支持新的内置工具,如网络搜索、文件搜索和计算机使用。这些工具设计为协同工作,将模型与现实世界连接,使其在完成任务时更加实用。它还带来了一些易用性改进,包括统一的基于项目的设计、更简单的多态性、直观的流式事件,以及 SDK 助手,如 response.output_text,以便轻松访问模型的文本输出。
Responses API 专为希望轻松将 OpenAI 模型和内置工具集成到其应用中的开发者设计,无需整合多个 API 或外部供应商的复杂性。该 API 还便于在 OpenAI 上存储数据,以便开发者使用追踪和评估等功能来评估代理性能。提醒一下,我们默认不会使用存储在 OpenAI 上的商业数据训练我们的模型。该 API 从今天起对所有开发者开放,不单独收费——令牌和工具按我们的定价页面指定的标准费率计费。查看 Responses API 快速入门指南了解更多。
这对现有 API 意味着什么
Chat Completions API:Chat Completions 仍是我们的最广泛采用的 API,我们完全致力于支持它,提供新模型和功能。不需要内置工具的开发者可以放心继续使用 Chat Completions。只要模型功能不依赖内置工具或多次模型调用,我们将持续为 Chat Completions 发布新模型。然而,Responses API 是 Chat Completions 的超集,具有同样出色的性能,因此对于新的集成,我们推荐从 Responses API 开始。 Assistants API:根据 Assistants API 测试版中的开发者反馈,我们已将关键改进融入 Responses API,使其更灵活、更快、更易用。我们正在努力实现 Assistants 和 Responses API 的功能完全对等,包括支持类似 Assistant 和 Thread 的对象,以及代码解释器工具。一旦完成,我们计划正式宣布 Assistants API 的弃用,目标终止日期为2026年中。弃用时,我们将提供从 Assistants API 到 Responses API 的清晰迁移指南,让开发者保留所有数据并迁移其应用。在正式宣布弃用之前,我们将继续为 Assistants API 提供新模型。Responses API 代表了在 OpenAI 上构建代理的未来方向。
介绍 Responses API 中的内置工具
网络搜索
开发者现在可以从网络上获得快速、更新的答案,并带有清晰且相关的引用。在 Responses API 中,使用 gpt-4o 和 gpt-4o-mini 时,网络搜索作为工具可用,并可与其他工具或函数调用搭配使用。

在早期测试中,我们看到开发者利用网络搜索构建了多种用例,包括购物助手、研究代理和旅行预订代理——任何需要网络及时信息的应用。
例如,Hebbia利用网络搜索工具,帮助资产管理者、私募股权和信贷公司以及法律实践从广泛的公共和私人数据集中快速提取可操作的见解。通过将实时搜索能力集成到他们的研究工作流程中,Hebbia 提供更丰富、特定于上下文的市场情报,并持续改进其分析的精确性和相关性,超越当前基准。
API 中的网络搜索由与 ChatGPT 搜索相同的模型驱动。在 SimpleQA(评估 LLM 回答简短事实性问题的准确性基准)上,GPT-4o 搜索预览版和 GPT-4o mini 搜索预览版分别得分为 90% 和 88%。

使用 API 中的网络搜索生成的回应包括指向来源的链接,如新闻文章和博客文章,为用户提供了解更多的途径。通过这些清晰的内嵌引用,用户可以以新的方式与信息互动,同时内容所有者获得接触更广泛受众的新机会。
任何网站或出版商都可以选择出现在 API 的网络搜索中。
网络搜索工具在 Responses API 中以预览形式对所有开发者开放。我们还通过 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 在 Chat Completions API 中为开发者提供对我们微调搜索模型的直接访问。定价分别为 GPT-4o 搜索每千次查询 30 美元,4o-mini 搜索每千次查询 25 美元起。在 Playground中查看网络搜索,并在我们的文档中了解更多。
文件搜索
开发者现在可以使用改进的文件搜索工具轻松从大量文档中检索相关信息。支持多种文件类型、查询优化、元数据过滤和自定义重新排序,它可以提供快速、准确的搜索结果。同样,通过 Responses API,只需几行代码即可集成。

文件搜索工具可用于多种现实世界的用例,包括使客户支持代理轻松访问常见问题解答、帮助法律助理为合格专业人员快速参考过往案例,以及协助编码代理查询技术文档。例如,Navan在其 AI 驱动的旅行代理中使用文件搜索,从知识库文章(如公司旅行政策)中快速为用户提供精确答案。凭借内置的查询优化和重新排序,他们无需额外调整或配置即可建立强大的 RAG(检索增强生成)管道。通过为每个用户组提供专用向量存储,Navan 能够根据个人账户设置和用户角色定制答案,为客户及其员工节省时间,同时帮助提供准确、个性化的支持。
此工具在 Responses API 中对所有开发者开放。使用定价为每千次查询 2.50 美元,文件存储为 0.10 美元/GB/天,首 GB 免费。该工具继续在 Assistants API 中可用。最后,我们还为 Vector Store API 对象添加了新的搜索端点,以便直接查询您的数据以在其他应用和 API 中使用。在我们的文档中了解更多,并在 Playground中开始测试。
计算机使用(computer use)
为了构建能够在计算机上完成任务的代理,开发者现在可以在 Responses API 中使用计算机使用工具,该工具由支持 Operator 的相同计算机使用代理(CUA)模型驱动。这一研究预览模型创下了新的最先进记录,在 OSWorld上的完整计算机使用任务成功率为 38.1%,在 WebArena上为 58.1%,在 WebVoyager上的基于网络交互为 87%。
内置的计算机使用工具捕获模型生成的鼠标和键盘操作,使开发者能够通过将其直接翻译为环境中可执行的命令来自动化计算机使用任务。

开发者可以使用计算机使用工具自动化基于浏览器的流程,例如对网络应用执行质量保证或跨遗留系统执行数据输入任务。例如,Unify是一个用于增加收入的行动系统,使用代理来识别意图、研究账户并与买家互动。借助 OpenAI 的计算机使用工具,Unify 的代理可以访问以前通过 API 无法获取的信息——例如使物业管理公司通过在线地图验证企业是否扩展了其房地产足迹。这项研究作为触发个性化外展的自定义信号——赋予市场团队以精确和规模与买家互动的能力。
另一个例子是,Luminai集成了计算机使用工具,为缺乏 API 可用性和标准化数据的大型企业自动化复杂的操作流程。在最近与一家主要社区服务组织的试点中,Luminai 在几天内自动化了申请处理和用户注册流程——这是传统机器人流程自动化(RPA)努力数月也难以实现的目标。
在去年推出 Operator 中的 CUA 之前,我们进行了广泛的安全测试和红队评估,解决了三个关键风险领域:滥用、模型错误和前沿风险。为了应对通过 API 中的 CUA 将 Operator 能力扩展到本地操作系统的风险,我们进行了额外的安全评估和红队测试。我们还为开发者添加了缓解措施,包括防止提示注入的安全检查、敏感任务的确认提示、帮助开发者隔离其环境的工具,以及增强对潜在政策违规的检测。虽然这些缓解措施有助于降低风险,但该模型仍可能在非浏览器环境中发生意外错误。例如,CUA 在 OSWorld(旨在测量 AI 代理在现实世界任务中的性能的基准)上的表现目前为 38.1%,表明该模型在操作系统上自动化任务的可靠性尚未达到很高水平。在这些场景中建议人工监督。有关我们特定于 API 的安全工作的更多详情,请查看我们更新的系统卡。

从今天起,计算机使用工具在 Responses API 中作为研究预览对选定开发者开放,适用于使用级别 3-5。使用定价为每百万输入令牌 3 美元,每百万输出令牌 12 美元。在我们的文档中了解更多,并查看示例应用,展示如何使用此工具构建。
Agents SDK
除了构建代理的核心逻辑并为其提供工具使其实用外,开发者还需要编排代理工作流程。我们新的开源 Agents SDK 简化了多代理工作流程的编排,并相较于我们去年发布的实验性 SDK Swarm提供了显著改进,该 SDK 被开发者社区广泛采用并被多个客户成功部署。
改进包括:
代理:易于配置的 LLM,带有清晰的指令和内置工具。 交接:智能地在代理之间转移控制。 护栏:可配置的输入和输出验证安全检查。 追踪与可观察性:可视化代理执行追踪,以调试和优化性能。

Agents SDK 适用于各种现实世界的应用,包括客户支持自动化、多步骤研究、内容生成、代码审查和销售前景挖掘。例如,Coinbase使用 Agents SDK 快速原型设计并部署了 AgentKit,一个使 AI 代理能够无缝与加密钱包和各种链上活动交互的工具包。在短短几小时内,Coinbase 将其开发者平台 SDK 中的自定义操作集成到一个功能齐全的代理中。AgentKit 的精简架构简化了添加新代理操作的过程,让开发者更专注于有意义的集成,而非复杂的代理设置。
在几天内,Box能够快速创建利用网络搜索和 Agents SDK 的代理,使企业能够搜索、查询并从存储在 Box 和公共互联网来源的非结构化数据中提取见解。这种方法不仅让客户能够访问最新信息,还能以安全且符合其内部权限和安全策略的方式搜索其内部专有数据。例如,一家金融服务公司可以构建一个自定义代理,调用 Box AI 代理,将存储在 Box 中的内部市场分析与网络上的实时新闻和经济数据整合,为其分析师提供投资决策的全面视图。
Agents SDK 与 Responses API 和 Chat Completions API 配合使用。该 SDK 还将支持其他提供者的模型,只要它们提供 Chat Completions 风格的 API 端点。开发者可以立即将其集成到他们的 Python 代码库中,Node.js 支持即将来临。在我们的文档中了解更多。
在设计 Agents SDK 时,我们的团队受到社区中其他优秀工作的启发,包括 Pydantic、Griffe和 MkDocs。我们致力于继续将 Agents SDK 作为开源框架构建,以便社区中的其他人可以扩展我们的方法。
下一步:构建代理平台
我们相信,代理很快将成为劳动力中不可或缺的一部分,显著提升各行业的生产力。随着公司日益寻求利用 AI 处理复杂任务,我们致力于提供构建模块,使开发者和企业能够有效创建具有现实世界影响的自主系统。
通过今天的发布,我们引入了首批构建模块,以增强开发者和企业更轻松地构建、部署和扩展可靠、高性能的 AI 代理。随着模型功能越来越具有代理特性,我们将继续投资于跨 API 的更深入集成和新工具,以帮助在生产环境中部署、评估和优化代理。我们的目标是为开发者提供无缝的平台体验,用于构建能够帮助各行业完成各种任务的代理。我们迫不及待想看到开发者接下来会构建什么。要开始使用,请探索我们的文档,并关注即将推出的更多更新。(来源)