Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

在数字化时代,自动化与 Web 内容交互的需求日益增长。然而,现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。

为了解决这些挑战,Convergence 推出了 Proxy Lite,这是一款基于视觉语言模型(VLM)的迷你开源模型,专为 UI 导航任务设计,旨在将高效的 Web 自动化功能扩展到开源社区。

Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

背景与挑战

1. 资源效率与泛化能力之间的平衡

许多现有的 Web 自动化工具虽然功能强大,但计算成本高昂,难以在资源受限的环境中部署。此外,这些工具通常针对特定任务进行优化,导致其在面对多样化网站时表现不佳。

2. 缺乏反思性推理

传统系统严重依赖提示预测,缺乏对 Web 环境不可预测性的适应能力。这种局限性使得它们在复杂或动态的 Web 场景中表现不稳定。

3. 专有模型的封闭性

许多高性能的专有模型限制了对其内部工作原理的访问,阻碍了开源社区的研究人员和开发者在其基础上进行改进和创新。

Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

Proxy Lite 的技术优势

1. 轻量级架构

Proxy Lite 是一个拥有 3B 参数 的视觉语言模型,基于 Qwen2.5-VL-3B-Instruct 构建。它的设计目标是实现性能与效率之间的平衡,能够在不牺牲功能的情况下降低计算需求。

2. 三阶段推理流程

Proxy Lite 采用了一种结构化的三阶段流程来完成任务:

  • 观察(Observation):模型首先检查网页的当前状态,例如确认叠加层或隐私横幅是否已被关闭。
  • 思考(Thinking):模型根据上下文权衡各种可能性,确定下一步的最佳行动。
  • 工具调用(Tool Call):模型发出精确的命令以在浏览器中执行选定操作。

这种类似人类的推理过程不仅提高了任务的可靠性,还增强了模型在不同 Web 交互中的泛化能力。

3. 开源权重与透明设计

Proxy Lite 的核心优势在于其开源权重和透明的设计。通过公开模型权重,Convergence 鼓励社区探索、修改和改进其框架。这种开放性为学术研究和实际应用提供了宝贵的资源。

4. 集成系统支持

Proxy Lite 提供了一个集成系统,用于处理视觉语言模型(VLM)和浏览器交互。它支持从常规数据提取到复杂导航任务的实际应用,同时保持资源使用量在可控范围内。

5. 易于部署

Proxy Lite 支持直接集成到命令行界面和 Streamlit 应用程序中,即使对于技术资源有限的用户,也能轻松部署。

性能评估

Proxy Lite 已通过 WebVoyager 基准进行了全面测试,这是一组专门设计用于评估 Web 自动化功能的任务集合。以下是其在几个典型网站上的表现:

网站 成功率 (%) 平均消息交换次数 备注
Allrecipes 87.8 10.3 在内容丰富的环境中表现出色,证明了其高效的数据提取能力。
Amazon 70.0 - 能够成功导航复杂的电子商务平台,尽管某些动态元素可能需要进一步优化。
Apple ~80 - 在高知名度网站上表现出可靠的行为,适用于多种任务场景。
GitHub ~80 - 对代码托管平台的支持良好,适合开发相关任务。
Google Services 较低 - 在谷歌航班等特定领域表现较弱,但整体性能仍然具有竞争力。

总体而言,Proxy Lite 在 WebVoyager 基准测试中取得了 72.4% 的总分,这一成绩充分体现了其在开源权重模型中的竞争力。

Convergence 发布基于视觉语言模型(VLM)的迷你开源模型 Proxy Lite

应用场景

1. 数据提取:Proxy Lite 可以高效地从各种网站中提取结构化数据,适用于市场调研、竞争分析等场景。

2. 导航与交互:无论是简单的表单填写还是复杂的多步骤导航,Proxy Lite 都能提供可靠的解决方案。

3. 自动化测试:开发者可以利用 Proxy Lite 自动化 Web 应用程序的功能测试,减少手动测试的工作量。

4. 教育与研究:由于其开源性质,Proxy Lite 为学术研究和教学提供了理想的基础工具,帮助学生和研究人员探索 Web 自动化的前沿技术。

© 版权声明

相关文章

暂无评论

none
暂无评论...