Local Browser 是一款基于 WebLLM 的 Chrome 扩展,它让 AI 能在你的设备上直接操作网页——点击、输入、提取信息,全部在本地完成,无需调用任何云端服务,也不需要 API 密钥。所有计算发生在你的电脑上,数据从不离开设备。
如果你关注隐私、希望离线使用 AI,或只是厌倦了依赖远程模型的自动化工具,Local Browser 提供了一种轻量、透明且完全可控的替代方案。
核心特性
- 纯本地运行:借助 WebLLM 与 WebGPU 加速,在浏览器中直接执行大语言模型推理。
- 双智能体架构:规划器(Planner)负责任务拆解,导航器(Navigator)负责具体操作,协同完成复杂指令。
- 完整浏览器自动化能力:支持页面跳转、点击元素、填写表单、提取文本、滚动、等待等基础操作。
- 隐私优先设计:无网络请求、无数据上传,所有处理均在本地沙箱中完成。
- 离线可用:首次下载模型后,后续使用无需联网。
如何安装与使用
系统要求
- Chrome 124 或更高版本(需支持 Service Worker 中的 WebGPU)
- Node.js 18+ 与 npm
- 支持 WebGPU 的 GPU(大多数现代显卡已兼容)
安装步骤
- 克隆项目并安装依赖:
git clone https://github.com/RunanywhereAI/on-device-browser-agent.git
cd local-browser
npm install
- 构建扩展包:
npm run build
- 在 Chrome 中加载:
- 打开
chrome://extensions - 启用右上角的“开发者模式”
- 点击“加载已解压的扩展程序”,选择
dist 文件夹
首次运行
- 点击浏览器工具栏中的 Local Browser 图标
- 扩展会自动下载默认模型(约 1GB),之后会缓存到本地
- 下次启动无需重新下载,可直接离线使用
使用示例
在任意网页上,点击扩展图标并输入自然语言指令,例如:
- “在维基百科搜索‘WebGPU’,并提取第一段内容”
- “访问 example.com,告诉我页面标题是什么”
- “找到搜索框,输入‘AI 新闻’并回车”
AI 会逐步解析任务、观察当前页面状态,并执行相应操作,整个过程实时可见。
技术实现简析
Local Browser 采用模块化架构,主要由三部分组成:
1. 后台服务(Service Worker)
- 负责加载 WebLLM 引擎
- 管理 AI 智能体(Planner + Navigator)
- 处理来自弹窗和内容脚本的消息
2. 内容脚本(Content Script)
- 注入到当前网页中
- 提取 DOM 结构(以文本形式)
- 执行具体操作(如点击按钮、输入文本)
3. 弹窗界面(Popup UI)
- 基于 React 构建
- 接收用户指令,展示执行日志与结果
智能体协作流程
- 用户输入任务 → 弹窗发送至后台
- 规划器智能体生成高层策略(如“先打开维基百科,再搜索关键词”)
- 导航器智能体结合当前页面 DOM,决定下一步具体动作(如“点击搜索框”)
- 内容脚本执行动作,并返回新页面状态
- 循环直至任务完成或失败
该设计受 Nanobrowser 启发,两个智能体均输出结构化 JSON,确保操作可解析、可验证。
模型选择与配置
默认使用 Qwen2.5-1.5B-Instruct(量化为 q4f16_1,约 1GB),兼顾速度与能力。你也可以在代码中切换其他模型:
Phi-3.5-mini-instruct(约 2GB):更强推理能力,适合复杂任务Llama-3.2-1B-Instruct(约 0.7GB):更小更快,适合低配设备
模型配置位于 src/shared/constants.ts,修改后重新构建即可生效。
常见问题与排查
WebGPU 不可用?
- 确保 Chrome ≥ 124
- 访问
chrome://gpu,检查 “WebGPU” 是否显示为“Hardware accelerated” - 某些旧显卡或虚拟机可能不支持
模型下载失败?
- 确保磁盘有至少 2GB 可用空间
- 查看浏览器控制台(Console)是否有网络或存储错误
- 可尝试清除扩展存储(在
chrome://extensions 中点击“详情”→“清除数据”)
操作未生效?
- Local Browser 无法在
chrome://、edge:// 或其他扩展页面运行 - 请在常规网站(如 wikipedia.org、github.com)测试
Chrome 更新后扩展失效?
- 返回
chrome://extensions,点击扩展卡片上的“重新加载”按钮即可
当前局限
Local Browser 仍处于概念验证阶段,并非生产级工具,存在以下限制:
- 仅支持文本 DOM 分析:无法识别图片、布局或视觉元素
- 单标签页操作:只能控制当前激活的标签页
- 基础交互能力:不支持文件上传、弹窗处理、多步骤登录等复杂场景
- 模型能力有限:1B–1.5B 参数模型在复杂逻辑或多跳推理上可能出错
但它证明了:在浏览器中运行端侧 AI 自动化是可行的,且能真正做到“数据不出设备”。
技术栈一览
- AI 推理:WebLLM(基于 MLC LLM,支持 WebGPU)
- 前端框架:React + TypeScript
- 构建工具:Vite + CRXJS(专为 Chrome 扩展优化)
- 扩展标准:Manifest V3(现代安全架构)
- 通信机制:Chrome Extension Messaging API
项目完全开源,代码结构清晰,适合开发者二次开发或集成到自有工作流中。
适合谁用?
- 关注隐私、拒绝数据上传的研究者或开发者
- 希望在离线环境下使用 AI 自动化的用户
- 对浏览器自动化感兴趣的技术爱好者
- 想探索端侧 AI 应用可能性的实验者
Local Browser 不追求“全自动解决一切”,而是提供一个透明、可控、本地优先的起点——让你真正掌握 AI 的运行边界。