OpenAI推出通用AI代理工具Operator研究预览版

OpenAI首席执行官Sam Altman在今年初就曾预言,2025年将是AI代理工具的重要一年。这些工具不仅能够自动化日常任务,还能代表用户采取行动。现在,这一愿景正逐步变为现实——OpenAI正式推出了名为Operator的研究预览版,这是一款可以控制网页浏览器并独立执行特定操作的通用AI代理工具。

Operator简介与适用范围

Operator首先面向美国地区的ChatGPT Pro订阅用户开放,这是一个价值200美元的高级服务计划。尽管目前仅限于美国用户使用,但Altman在最近的一次直播中透露,该功能未来将扩展至其他国家和地区,不过欧洲地区可能需要更长时间才能享受到这项服务。

功能特性与应用场景

  • 多任务支持:Operator支持多种类型的自动化任务,如购物、配送、餐饮预订及旅行住宿等。
  • 专用浏览器界面:当激活Operator时,用户可以看到一个专门的浏览器窗口,显示代理正在执行的任务详情,同时允许用户随时接管控制权。

技术背景

Operator由“计算机使用代理”(CUA)模型驱动,结合了GPT-4o的视觉识别能力和更先进的推理能力,使得它能够像人类一样与网站交互,无需依赖开发者API即可完成各种操作,例如点击按钮、导航菜单和填写表单。

安全措施与合作

考虑到安全性和隐私保护,OpenAI设计了多项措施确保Operator的安全使用,并与多家知名企业(如DoorDash、eBay等)合作,确保遵守各公司的服务条款协议。此外,在处理敏感信息时,如银行交易或信用卡输入,Operator会请求用户手动干预,避免收集或截图任何敏感数据。

展望未来

虽然CUA模型尚未达到完美状态,但它已经在多个场景中展示了其实用性。随着技术的进步和反馈的积累,OpenAI计划进一步提升Operator的性能和可靠性,最终目标是将其整合进ChatGPT的所有客户端版本中。

0

评论0

没有账号?注册  忘记密码?