在数字化时代,自动化与 Web 内容交互的需求日益增长。然而,现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。
- GitHub:https://github.com/convergence-ai/proxy-lite
- 模型:https://huggingface.co/convergence-ai/proxy-lite-3b
为了解决这些挑战,Convergence 推出了 Proxy Lite,这是一款基于视觉语言模型(VLM)的迷你开源模型,专为 UI 导航任务设计,旨在将高效的 Web 自动化功能扩展到开源社区。

背景与挑战
1. 资源效率与泛化能力之间的平衡
许多现有的 Web 自动化工具虽然功能强大,但计算成本高昂,难以在资源受限的环境中部署。此外,这些工具通常针对特定任务进行优化,导致其在面对多样化网站时表现不佳。
2. 缺乏反思性推理
传统系统严重依赖提示预测,缺乏对 Web 环境不可预测性的适应能力。这种局限性使得它们在复杂或动态的 Web 场景中表现不稳定。
3. 专有模型的封闭性
许多高性能的专有模型限制了对其内部工作原理的访问,阻碍了开源社区的研究人员和开发者在其基础上进行改进和创新。

Proxy Lite 的技术优势
1. 轻量级架构
Proxy Lite 是一个拥有 3B 参数 的视觉语言模型,基于 Qwen2.5-VL-3B-Instruct 构建。它的设计目标是实现性能与效率之间的平衡,能够在不牺牲功能的情况下降低计算需求。
2. 三阶段推理流程
Proxy Lite 采用了一种结构化的三阶段流程来完成任务:
- 观察(Observation):模型首先检查网页的当前状态,例如确认叠加层或隐私横幅是否已被关闭。
- 思考(Thinking):模型根据上下文权衡各种可能性,确定下一步的最佳行动。
- 工具调用(Tool Call):模型发出精确的命令以在浏览器中执行选定操作。
这种类似人类的推理过程不仅提高了任务的可靠性,还增强了模型在不同 Web 交互中的泛化能力。
3. 开源权重与透明设计
Proxy Lite 的核心优势在于其开源权重和透明的设计。通过公开模型权重,Convergence 鼓励社区探索、修改和改进其框架。这种开放性为学术研究和实际应用提供了宝贵的资源。
4. 集成系统支持
Proxy Lite 提供了一个集成系统,用于处理视觉语言模型(VLM)和浏览器交互。它支持从常规数据提取到复杂导航任务的实际应用,同时保持资源使用量在可控范围内。
5. 易于部署
Proxy Lite 支持直接集成到命令行界面和 Streamlit 应用程序中,即使对于技术资源有限的用户,也能轻松部署。
性能评估
Proxy Lite 已通过 WebVoyager 基准进行了全面测试,这是一组专门设计用于评估 Web 自动化功能的任务集合。以下是其在几个典型网站上的表现:
网站 | 成功率 (%) | 平均消息交换次数 | 备注 |
---|---|---|---|
Allrecipes | 87.8 | 10.3 | 在内容丰富的环境中表现出色,证明了其高效的数据提取能力。 |
Amazon | 70.0 | - | 能够成功导航复杂的电子商务平台,尽管某些动态元素可能需要进一步优化。 |
Apple | ~80 | - | 在高知名度网站上表现出可靠的行为,适用于多种任务场景。 |
GitHub | ~80 | - | 对代码托管平台的支持良好,适合开发相关任务。 |
Google Services | 较低 | - | 在谷歌航班等特定领域表现较弱,但整体性能仍然具有竞争力。 |
总体而言,Proxy Lite 在 WebVoyager 基准测试中取得了 72.4% 的总分,这一成绩充分体现了其在开源权重模型中的竞争力。

应用场景
1. 数据提取:Proxy Lite 可以高效地从各种网站中提取结构化数据,适用于市场调研、竞争分析等场景。
2. 导航与交互:无论是简单的表单填写还是复杂的多步骤导航,Proxy Lite 都能提供可靠的解决方案。
3. 自动化测试:开发者可以利用 Proxy Lite 自动化 Web 应用程序的功能测试,减少手动测试的工作量。
4. 教育与研究:由于其开源性质,Proxy Lite 为学术研究和教学提供了理想的基础工具,帮助学生和研究人员探索 Web 自动化的前沿技术。