Open-AutoGLM

2天前发布 72 00

Phone Agent 是一个基于 AutoGLM 构建的手机端智能助理框架,它能够以多模态方式理解手机屏幕内容,并通过自动化操作帮助用户完成任务。

所在地:
中国
收录时间:
2025-12-11
其他站点:
Open-AutoGLMOpen-AutoGLM

智谱AI正式开源 AutoGLM 手机端智能助理全栈方案,涵盖模型、代码、框架、可直接运行的Demo等全套资源(模型采用MIT许可证),基于该方案构建的 Phone Agent 框架,可通过多模态感知+自动化操作,让用户以自然语言指令操控手机完成各类任务,目前已适配50+高频中文App,还提供Android专属适配层与远程调试能力,大幅降低手机智能助理的开发与落地门槛。

Open-AutoGLM

开源核心资源:一站式配齐,开箱即用

AutoGLM 开源包覆盖从模型到落地的全链路资源,无需额外适配即可快速上手:

资源类型具体内容
核心模型训练好的 AutoGLM-Phone-9B(中文优化)、AutoGLM-Phone-9B-Multilingual(多语言),可在 Hugging Face/ModelScope 下载
框架工具Phone Use 能力框架、工具链,适配Android的专属适配层与示例工程
落地Demo可直接跑通的Demo,覆盖50+高频中文App场景
文档指南完整文档、上手指南,降低开发学习成本

模型下载地址

ModelDownload Links
AutoGLM-Phone-9B🤗 Hugging Face
🤖 ModelScope
AutoGLM-Phone-9B-Multilingual🤗 Hugging Face
🤖 ModelScope

其中,AutoGLM-Phone-9B 是针对中文手机应用优化的模型,而 AutoGLM-Phone-9B-Multilingual 支持英语场景,适用于包含英文等其他语言内容的应用。

Phone Agent 核心能力:自然语言驱动的手机自动化

Phone Agent 是 AutoGLM 的核心落地框架,以“多模态感知+智能规划+自动化执行”实现手机端全流程智能助理能力:

1. 核心工作流程

用户仅需输入自然语言指令(如“打开小红书搜索美食”),框架即可完成:

  1. 意图解析:识别用户核心需求,拆解任务目标;
  2. 屏幕感知:通过视觉语言模型理解当前手机界面的多模态内容(文字、按钮、布局等);
  3. 动作规划:基于界面信息生成分步操作流程;
  4. 自动化执行:通过 ADB(Android Debug Bridge)控制设备完成点击、输入、滑动等操作,闭环完成任务。

2. 关键特性

  • 安全可控:内置敏感操作确认机制,登录、验证码等高危场景支持人工接管,避免误操作;
  • 远程调试:支持远程 ADB 调试,可通过 WiFi/网络连接设备,实现灵活的远程控制与开发调试;
  • 多语言适配:AutoGLM-Phone-9B 针对中文App优化,AutoGLM-Phone-9B-Multilingual 支持英语场景,适配多语言应用。

部署与使用优势

  1. 低成本落地:全开源资源包无需额外开发基础能力,Demo可直接运行,快速验证50+App的自动化场景;
  2. Android深度适配:专属适配层解决手机端操作的兼容性问题,示例工程覆盖主流操作场景;
  3. 灵活扩展:基于开源的模型与框架,可自定义适配更多App,或优化视觉感知、动作规划逻辑。

AutoGLM 的开源填补了中文场景下手机端智能助理的全栈方案空白,从模型到落地工具的一站式开放,既方便开发者快速搭建专属手机智能助理,也为多模态自动化、移动端大模型应用提供了可复用的技术底座。

数据统计

相关导航

暂无评论

none
暂无评论...