Droidrun

7个月前发布 107 00

DroidRun 是一个强大的框架，通过大语言模型（LLM）代理控制 Android 和 iOS 设备。它允许使用自然语言命令实现设备交互的自动化。

所在地：

美国

收录时间：

2025-08-09

其他站点:

GitHub

打开网站手机查看

Droidrun

打开网站

DroidRun是一个基于大语言模型（LLM）代理的移动设备自动化框架，支持通过自然语言命令控制 Android 和 iOS 设备，实现跨平台、多步骤任务的端到端执行。

无论是应用测试、流程引导，还是为非技术用户提供远程协助，DroidRun 都提供了一种低门槛、高灵活性的自动化解决方案。

为什么需要 DroidRun？

尽管已有 ADB、Appium、XCUITest 等移动自动化工具，但它们普遍存在以下问题：

学习成本高，需编写脚本或熟悉 API
难以应对动态 UI 变化
缺乏高层语义理解能力

而 DroidRun 的核心思路是：将 LLM 作为“智能控制器”，赋予其“看屏幕”和“操作设备”的能力，从而实现：

“你说，它做。”

用户只需用自然语言描述目标（如“打开微博，搜索‘AI 新进展’，点赞第一条帖子”），DroidRun 即可自动规划步骤、识别界面元素并执行操作。

核心特性

🤖 自然语言驱动的设备控制

支持使用日常语言指令控制手机行为，无需编程基础。
示例命令：

“在抖音上找到上周关注的博主，播放他最新的视频。”

🔀 多 LLM 后端支持

灵活对接主流大模型服务，当前支持：

OpenAI（GPT-4o）
Anthropic（Claude）
Google Gemini
Ollama（本地部署）
DeepSeek

可根据性能、延迟、隐私需求自由切换模型。

🧠 复杂任务规划能力

不仅能执行单步操作，还能拆解多轮任务，例如：

“检查邮箱里有没有来自客户的合同文件，如果有，转发给法务团队。”

模型会自动判断当前界面状态，决定下一步操作（点击、滑动、输入等），具备一定的上下文推理能力。

📸 屏幕视觉理解

通过实时截图获取设备当前画面，结合 LLM 的多模态能力分析 UI 布局，识别按钮、输入框、列表项等元素，实现精准操作定位。

💻 命令行 + Python API 双重支持

CLI 模式：开箱即用，适合快速验证与调试
Python API：支持深度集成，可扩展自定义逻辑、条件判断与异常处理

droidrun --device android --prompt "打开设置，连接到 Wi-Fi 网络 'Home'"

🫆 执行过程可追踪

集成 Arize Phoenix 进行 trace 监控，记录每一步的输入、模型决策、截图与操作结果，便于调试与审计。

🐍 可扩展架构设计

模块化设计允许开发者插入自定义组件，如：

替换视觉编码器
添加动作过滤规则
集成私有 LLM 服务

典型应用场景

场景	说明
移动 UI 自动化测试	快速验证 App 在不同设备上的功能流程，减少手动回归测试工作量
非技术用户引导	为老年人或数字弱势群体提供语音驱动的操作助手
重复任务自动化	自动完成每日签到、数据上报、消息回复等高频操作
远程技术支持	技术人员通过自然语言指导远程设备操作，降低沟通成本
UI 探索与逆向分析	快速理解陌生 App 的功能结构，辅助产品调研或无障碍适配

数据统计

Tavus

Bevel

Bevel 是改善健康状况、提升表现和延长寿命的首选 App，获数千用户信赖并拥有科学背书。从睡眠、恢复、压力管理到力量训练，Bevel 将健康数据转化为真正可用的个性化指导。无论你是备战大赛还是追求日常状态提升，Bevel 都能助你更聪明地运动、更高效地恢复并延长寿命，不必盲目摸索。

暂无评论

暂无评论...