Claude新功能Computer Use的开源平替方案大合集

Anthropic在近期升级了Claude 3.5 Sonnet 和推出新模型 Claude 3.5 Haiku,不过最令人惊喜的还是推出了新功能Computer Use,让Claude 可以像人类用户一样,在电脑屏幕上移动光标、点击相关位置并通过虚拟键盘输入信息。Computer Use 是通过快速连续截屏去执行操作,它要求用户授权其软件必要的访问权限,查看屏幕截图,计算移动光标到正确位置所需的垂直或水平像素数,它无法执行拖放之类常见鼠标操作。Anthropic 表示该工具有很多限制,容易出错,比如没有完成编程任务就去浏览黄石公园的照片。目前此功能还处于内测阶段。

Computer Use开源替代品

Agent.exe

Agent.exe 是一个简单的 Electron 应用程序,通过 Claude 新的 Computer Use 能力,让 Claude 3.5 Sonnet 直接控制您的本地电脑。这款应用程序最初计划添加一个“半自动”模式,让用户在执行每个操作之前必须确认,但由于每一步都很慢,开发者发现这并不必要。如果模型感到困惑,用户可以轻松地点击“停止”按钮来结束运行。

支持的系统

  • MacOS
  • Windows(理论上支持)
  • Linux(理论上支持)

已知限制

  • 仅在主显示器上工作
  • 不能完全控制电脑

Computer Use OOTB

Computer Use OOTB是Claude 3.5的Computer Use功能API的开箱即用(OOTB)解决方案。无需Docker,支持Windows和macOS。该项目提供了一个基于Gradio的用户友好界面。

Aguvis

香港大学和Salesforce 研究的研究人员推出一个统一的纯视觉基础框架AGUVIS,用于构建能够在不同平台上自动执行图形用户界面(GUI)任务的智能代理。AGUVIS通过利用基于图像的观察和自然语言指令与视觉元素的关联,以及一致的动作空间,来实现跨平台的泛化能力。这个系统能够理解高分辨率和复杂的用户界面,并将自然语言指令映射到视觉观察上,从而规划和推理出完成任务的有效步骤。

    0

    评论0

    没有账号?注册  忘记密码?