
在物流、零工、现场服务等“移动优先”行业中,真实的工作发生在手机和平板上——而这些地方,笔记本电脑无法使用,网页也无法覆盖。
- 卡车司机在驾驶室里用 RTS Pro 提交发票;
- 快递员在手持设备上扫描 200+ 个包裹;
- 零工司机在 Uber、DoorDash、Instacart 之间手动切换接单;
- 资金团队在 Chase Mobile 中执行对账。
这些任务依赖原生 Android 应用,而现有 AI 智能体(如 Anthropic 的 Computer Use 或浏览器智能体)要么需要桌面环境,要么仅能操作网页——完全无法触及 30 亿台 Android 设备上的真实工作流。
为此,Action State Labs 推出了 Android Use —— 一个开源、轻量、基于无障碍 API 的 AI 智能体库,首次让 AI 能在真实 Android 设备上自动操作原生应用。
核心技术:无障碍树 + LLM,无需视觉模型
Android Use 的核心突破在于放弃截图与 OCR,转而利用 Android 系统内置的 Accessibility API:
- 通过
adb shell uiautomator dump获取当前界面的 无障碍树(XML); - 解析为结构化 JSON,包含按钮文本、坐标、可点击状态等信息;
- 将该结构化数据输入 LLM(如 GPT-4),生成下一步操作(点击、输入、返回等);
- 通过 ADB 执行真实操作(如
input tap x y)。
这一设计带来显著优势:
| 指标 | 桌面智能体(截图+视觉模型) | Android Use(无障碍树) |
|---|---|---|
| 单次操作成本 | $0.15 | $0.01(↓95%) |
| 响应延迟 | 3–5 秒 | <1 秒 |
| 准确率 | 70–80% | >99% |
| 设备支持 | 仅桌面 | 手持 Android 设备 |
无需昂贵的视觉模型,不依赖屏幕分辨率,且天然支持生物识别、2FA 等原生安全机制。
真实场景:从物流到医疗的自动化
🚛 物流发票自动化
run_agent("""
1. 从 WhatsApp 获取最新提货单图片
2. 打开扫描应用处理
3. 切换到 RTS Pro 保理应用
4. 填写发票表格
5. 上传 PDF 并提交付款
""")
✅ 司机从 10 分钟手动操作 缩短至 30 秒自动完成,无需后台人员介入。
🚗 零工经济收入最大化
run_agent("监控所有配送应用,接受报酬最高的订单")
✅ 自动接单,减少空驶,提升 20%+ 收入。
📦 批量包裹扫描
run_agent("扫描照片中的所有包裹,并在 Amazon Flex 中标记为已装载")
✅ 摆脱逐一手动扫描,加快装卸效率。
🏦 移动银行对账
run_agent("登录 Chase Mobile,导出今日所有电汇记录")
✅ 自动化资金核对,支持合规与反欺诈。
🏥 医疗数据提取
run_agent("打开 Epic MyChart,下载患者 12345 的最新化验结果")
✅ 在 HIPAA 合规前提下,安全提取移动端数据。
快速上手(60 秒)
前提:Android 设备(USB 调试已开启)、Python 3.10+、OpenAI API Key。
git clone https://github.com/actionstatelabs/android-action-kernel.git
cd android-action-kernel
pip install -r requirements.txt
brew install android-platform-tools # macOS
adb devices # 确认设备连接
export OPENAI_API_KEY="sk-..."
python kernel.py
调用示例:
from kernel import run_agent
run_agent("打开 WhatsApp,获取最新图片,然后打开发票应用填写表格")
核心代码仅 200 行,模块化设计,支持扩展至 Claude、Gemini、Llama 等多模型。
为什么是现在?
- 市场验证:物流演示发布 24 小时内获 70 万+ 浏览,收到 150+ 企业私信;
- 试点落地:已与 5 家物流公司、3 家保理平台启动 Beta 测试;
- 经济规模:移动优先工作流支撑 超 40 万亿美元 GDP,但长期缺乏自动化工具。
Android Use 填补了这一空白——让 AI 智能体真正走进卡车驾驶室、快递站点和工地现场。
未来规划
- PyPI 包:
pip install android-use - 预置模板:RTS Pro、OTR Capital、DoorDash 等行业专用智能体
- 云 API 服务(2026 Q1):无需管理设备,直接调用 API
- 企业平台:支持 SOC2、审计日志、PII 脱敏、设备集群管理
数据统计
相关导航


Endex

Pine

Paper2Slides

QuantAgent

Nanobrowser

心响







