OpenAI推出AgentKit：一套完整的AI智能体开发工具包

68 0

在周一举行的 OpenAI Dev Day 上，首席执行官萨姆·奥尔特曼正式发布了 AgentKit——一个专为开发者设计的全新工具包，帮助他们更高效地构建、部署和优化 AI 智能体（AI Agents）。

“AgentKit 是我们开放 AI 平台中的一套完整构建模块，能帮你把智能体从原型快速推进到生产阶段。”奥尔特曼表示，“它涵盖了你所需的一切，大幅降低了开发摩擦。”

这一发布标志着 OpenAI 正式加大对 AI 智能体生态的投入。随着行业竞争加剧，各大平台纷纷推出集成化工具，支持企业构建能够自主执行复杂任务的智能体。而 AgentKit 的推出，正是 OpenAI 提升开发者采用率、强化平台竞争力的关键一步。

目前，ChatGPT 已拥有每周 8 亿活跃用户，并开放了在对话中直接调用第三方应用的能力。AgentKit 则进一步将开发能力下沉，让企业和个人开发者可以基于 OpenAI 技术栈打造真正具备行动力的 AI 协作者。

AgentKit 包含四大核心组件

Agent Builder：可视化构建智能体逻辑
被奥特曼称为“构建智能体的 Canva”，Agent Builder 提供了一个直观的图形界面，开发者可以通过拖拽方式定义智能体的工作流程、决策路径和执行步骤。
它建立在已被数十万开发者使用的 Assistants API 基础之上，允许快速搭建包含条件判断、循环、外部调用等复杂逻辑的智能体系统，无需从零编写代码。
ChatKit：嵌入式聊天界面组件
ChatKit 是一个轻量级、可定制的聊天 UI 组件，开发者可以将其轻松集成到自己的产品中。
“你可以带上自己的品牌、工作流和独特功能，”奥特曼强调，“让你的应用体验保持一致性，同时享受 OpenAI 的强大能力。”
这意味着企业可以在自有 App 或网站中嵌入类似 ChatGPT 的交互体验，而不必依赖 OpenAI 的前端。
Evals for Agents：评估与优化工具
如何衡量一个 AI 智能体是否可靠？OpenAI 引入了 Evals for Agents，一套专门用于评估智能体性能的工具集，包括：
- 逐步执行轨迹的自动评分；
- 针对智能体各组件（如规划、记忆、工具调用）的基准测试数据集；
- 自动化提示优化建议；
- 支持在非 OpenAI 模型上运行评估，便于横向对比。
这些功能帮助开发者持续迭代智能体行为，提升准确性和稳定性。
连接器注册表（Connectors Registry）
开发者可通过统一的“管理员控制面板”，安全地将 AI 智能体连接到内部系统（如 CRM、ERP）或第三方服务（如 Slack、Google Workspace）。
所有连接均支持权限管理与审计日志，确保企业在享受自动化便利的同时，不牺牲数据安全与合规性。

现场演示：8分钟构建两个AI智能体

为了展示 AgentKit 的易用性，OpenAI 工程师 Christina Huang 在舞台上仅用不到 8 分钟，就现场完成了一个完整 AI 工作流的搭建，并创建了两个功能不同的智能体：一个用于处理客户支持请求，另一个负责生成个性化营销内容。

整个过程无需编写复杂代码，主要通过可视化操作完成。

目标明确：让智能体真正落地

“这是我们当初想做第一个智能体时，最希望拥有的所有工具，”奥特曼坦言。

目前，已有部分企业作为启动合作伙伴接入 AgentKit，并开始将其应用于客服自动化、内部知识助手、销售流程辅助等场景。

尽管 AgentKit 当前仍处于早期阶段，但它的出现表明：OpenAI 不再满足于让 AI 只是“回答问题”，而是致力于打造能“采取行动”的智能体生态系统。

未来，随着更多开发者加入，AI 智能体或将逐步成为企业软件架构中的标准组件。

官方介绍全文：

介绍AgentKit

用于构建、部署和优化智能体的新工具。

今天我们推出AgentKit，这是一套完整的工具，供开发者和企业构建、部署和优化智能体。到目前为止，构建智能体意味着要处理碎片化的工具——复杂的编排没有版本控制、自定义连接器、手动评估管道、提示调整，以及发布前数周的前端工作。有了AgentKit，开发者现在可以使用新构建模块如以下这些来视觉化设计工作流并更快嵌入智能体UI：

Agent Builder：一个用于创建和版本化多智能体工作流的视觉画布
连接器注册表：管理员管理数据和工具如何跨OpenAI产品连接的中央位置
ChatKit：一个用于在你的产品中嵌入可定制聊天智能体体验的工具包

我们还在扩展评估功能，新增数据集、跟踪分级、自动化提示优化和第三方模型支持等功能，以衡量和改进智能体性能。

自三月发布Responses API和Agents SDK以来，我们看到开发者和企业为深度研究、客户支持等构建端到端智能体工作流。Klarna构建了一个支持智能体，处理三分之二的票据，而Clay使用销售智能体实现了10倍增长。AgentKit建立在Responses API之上，帮助开发者更高效、更可靠地构建智能体。

使用Agent Builder设计工作流

随着智能体工作流变得更复杂，开发者需要更清晰的可见性来了解其工作方式。Agent Builder提供了一个视觉画布，用于通过拖放节点组合逻辑、连接工具并配置自定义护栏。它支持预览运行、内联评估配置和完整版本化——非常适合快速迭代。

在Ramp，团队仅用几个小时就从空白画布构建了一个买家智能体：

Agent Builder将曾经需要数月复杂编排、自定义代码和手动优化的过程转变为只需几个小时。视觉画布让产品、法律和工程团队保持一致，迭代周期缩短70%，智能体在两个冲刺而非两个季度内上线。”
— Ramp

同样，日本领先的技术和互联网服务公司LY Corporation用不到两个小时用Agent Builder构建了一个工作助理智能体。

"Agent Builder让我们以全新方式编排智能体，工程师和主题专家都在一个界面中协作。我们构建了第一个多智能体工作流，并在不到两个小时内运行它，大大加速了创建和部署智能体的时间。"
— LY Corporation

我们还在为企业推出连接器注册表，用于跨多个工作区和组织治理和维护数据。连接器注册表将数据源整合到一个跨ChatGPT和API的单一管理员面板中。注册表包括所有预构建连接器，如Dropbox、Google Drive、Sharepoint和Microsoft Teams，以及第三方MCP。

开发者还可以在Agent Builder中启用Guardrails——一个开源、模块化的安全层，帮助保护智能体免受意外或恶意行为。Guardrails可以掩码或标记PII、检测越狱，并应用其他保障措施，使构建和部署可靠、安全的智能体更容易。Guardrails可以独立部署，或通过Python和JavaScript的护栏库部署。

使用ChatKit嵌入智能体聊天体验

为智能体部署聊天UI可能出人意料地复杂——处理流响应、管理线程、显示模型思考，以及设计引人入胜的聊天内体验。ChatKit使嵌入感觉原生于你的产品的聊天智能体变得简单。它可以嵌入到应用或网站中，并自定义以匹配你的主题或品牌。

ChatKit已经为一系列用例提供动力，从内部知识助理和入职指南到客户支持和研究智能体。HubSpot的客户支持智能体就是一个例子：

使用新Evals功能衡量智能体性能

构建可靠、生产就绪的智能体需要严格的性能评估。去年，我们推出Evals来帮助开发者测试提示并衡量模型行为。我们现在添加了四项新功能，使构建评估更容易：

数据集–快速从头构建智能体评估，并随着时间通过自动化分级和人工注释扩展它们。
跟踪分级–运行智能体工作流的端到端评估，并自动化分级以找出不足。
自动化提示优化–基于人工注释和分级输出生成改进的提示。
第三方模型支持–在OpenAI Evals平台内评估其他提供商的模型。

我们已经看到使用Evals的客户获得重大性能提升。

使用强化微调提升智能体性能

强化微调（RFT）让开发者自定义我们的推理模型。它在OpenAI o4-mini上全面可用，并在GPT-5的私人测试版中。我们正与数十家客户密切合作，在更广泛发布前完善GPT-5的RFT。

今天，我们在RFT测试版中引入两项新功能，旨在进一步提升智能体性能：

自定义工具调用–训练模型在正确时间调用正确工具以实现更好推理
自定义分级器–为你的用例中最重要的内容设置自定义评估标准

定价与可用性

从今天开始，ChatKit和新Evals功能对所有开发者全面可用。Agent Builder处于测试版，连接器注册表开始向一些API、ChatGPT Enterprise和Edu客户进行测试版 rollout，这些客户拥有Global Admin Console（Global Owners可以在其中管理域、SSO、多个API组织）。Global Admin控制台是启用连接器注册表的先决条件。所有这些工具均包含在标准API模型定价中。

我们计划很快为ChatGPT添加独立的Workflows API和智能体部署选项。

我们迫不及待想看到你构建什么。