Local Browser

4天前发布 3 00

Local Browser是一款 Chrome 扩展,利用 WebLLM 在设备端完全运行 AI 驱动的网页自动化。无需云端 API,无需 API 密钥,完全私密。

所在地:
美国
收录时间:
2026-01-26
Local BrowserLocal Browser

Local Browser 是一款基于 WebLLM 的 Chrome 扩展,它让 AI 能在你的设备上直接操作网页——点击、输入、提取信息,全部在本地完成,无需调用任何云端服务,也不需要 API 密钥。所有计算发生在你的电脑上,数据从不离开设备。

如果你关注隐私、希望离线使用 AI,或只是厌倦了依赖远程模型的自动化工具,Local Browser 提供了一种轻量、透明且完全可控的替代方案。

核心特性

  • 纯本地运行:借助 WebLLM 与 WebGPU 加速,在浏览器中直接执行大语言模型推理。
  • 双智能体架构:规划器(Planner)负责任务拆解,导航器(Navigator)负责具体操作,协同完成复杂指令。
  • 完整浏览器自动化能力:支持页面跳转、点击元素、填写表单、提取文本、滚动、等待等基础操作。
  • 隐私优先设计:无网络请求、无数据上传,所有处理均在本地沙箱中完成。
  • 离线可用:首次下载模型后,后续使用无需联网。

如何安装与使用

系统要求

  • Chrome 124 或更高版本(需支持 Service Worker 中的 WebGPU)
  • Node.js 18+ 与 npm
  • 支持 WebGPU 的 GPU(大多数现代显卡已兼容)

安装步骤

  1. 克隆项目并安装依赖:
    git clone https://github.com/RunanywhereAI/on-device-browser-agent.git
    cd local-browser
    npm install
    
  2. 构建扩展包:
    npm run build
    
  3. 在 Chrome 中加载:
    • 打开 chrome://extensions
    • 启用右上角的“开发者模式”
    • 点击“加载已解压的扩展程序”,选择 dist 文件夹

首次运行

  • 点击浏览器工具栏中的 Local Browser 图标
  • 扩展会自动下载默认模型(约 1GB),之后会缓存到本地
  • 下次启动无需重新下载,可直接离线使用

使用示例

在任意网页上,点击扩展图标并输入自然语言指令,例如:

  • “在维基百科搜索‘WebGPU’,并提取第一段内容”
  • “访问 example.com,告诉我页面标题是什么”
  • “找到搜索框,输入‘AI 新闻’并回车”

AI 会逐步解析任务、观察当前页面状态,并执行相应操作,整个过程实时可见。

技术实现简析

Local Browser 采用模块化架构,主要由三部分组成:

1. 后台服务(Service Worker)

  • 负责加载 WebLLM 引擎
  • 管理 AI 智能体(Planner + Navigator)
  • 处理来自弹窗和内容脚本的消息

2. 内容脚本(Content Script)

  • 注入到当前网页中
  • 提取 DOM 结构(以文本形式)
  • 执行具体操作(如点击按钮、输入文本)

3. 弹窗界面(Popup UI)

  • 基于 React 构建
  • 接收用户指令,展示执行日志与结果

智能体协作流程

  1. 用户输入任务 → 弹窗发送至后台
  2. 规划器智能体生成高层策略(如“先打开维基百科,再搜索关键词”)
  3. 导航器智能体结合当前页面 DOM,决定下一步具体动作(如“点击搜索框”)
  4. 内容脚本执行动作,并返回新页面状态
  5. 循环直至任务完成或失败

该设计受 Nanobrowser 启发,两个智能体均输出结构化 JSON,确保操作可解析、可验证。

模型选择与配置

默认使用 Qwen2.5-1.5B-Instruct(量化为 q4f16_1,约 1GB),兼顾速度与能力。你也可以在代码中切换其他模型:

  • Phi-3.5-mini-instruct(约 2GB):更强推理能力,适合复杂任务
  • Llama-3.2-1B-Instruct(约 0.7GB):更小更快,适合低配设备

模型配置位于 src/shared/constants.ts,修改后重新构建即可生效。

常见问题与排查

WebGPU 不可用?

  • 确保 Chrome ≥ 124
  • 访问 chrome://gpu,检查 “WebGPU” 是否显示为“Hardware accelerated”
  • 某些旧显卡或虚拟机可能不支持

模型下载失败?

  • 确保磁盘有至少 2GB 可用空间
  • 查看浏览器控制台(Console)是否有网络或存储错误
  • 可尝试清除扩展存储(在 chrome://extensions 中点击“详情”→“清除数据”)

操作未生效?

  • Local Browser 无法在 chrome://edge:// 或其他扩展页面运行
  • 请在常规网站(如 wikipedia.org、github.com)测试

Chrome 更新后扩展失效?

  • 返回 chrome://extensions,点击扩展卡片上的“重新加载”按钮即可

当前局限

Local Browser 仍处于概念验证阶段,并非生产级工具,存在以下限制:

  • 仅支持文本 DOM 分析:无法识别图片、布局或视觉元素
  • 单标签页操作:只能控制当前激活的标签页
  • 基础交互能力:不支持文件上传、弹窗处理、多步骤登录等复杂场景
  • 模型能力有限:1B–1.5B 参数模型在复杂逻辑或多跳推理上可能出错

但它证明了:在浏览器中运行端侧 AI 自动化是可行的,且能真正做到“数据不出设备”。

技术栈一览

  • AI 推理:WebLLM(基于 MLC LLM,支持 WebGPU)
  • 前端框架:React + TypeScript
  • 构建工具:Vite + CRXJS(专为 Chrome 扩展优化)
  • 扩展标准:Manifest V3(现代安全架构)
  • 通信机制:Chrome Extension Messaging API

项目完全开源,代码结构清晰,适合开发者二次开发或集成到自有工作流中。

适合谁用?

  • 关注隐私、拒绝数据上传的研究者或开发者
  • 希望在离线环境下使用 AI 自动化的用户
  • 对浏览器自动化感兴趣的技术爱好者
  • 想探索端侧 AI 应用可能性的实验者

Local Browser 不追求“全自动解决一切”,而是提供一个透明、可控、本地优先的起点——让你真正掌握 AI 的运行边界。

数据统计

相关导航

暂无评论

none
暂无评论...