Convergence 发布基于视觉语言模型（VLM）的迷你开源模型 Proxy Lite

多模态模型1年前发布小马良

301 0

在数字化时代，自动化与 Web 内容交互的需求日益增长。然而，现有的解决方案往往面临资源密集型、任务特定化以及缺乏透明性等问题。这些问题限制了它们的广泛适用性和社区参与度。

GitHub：https://github.com/convergence-ai/proxy-lite
模型：https://huggingface.co/convergence-ai/proxy-lite-3b

为了解决这些挑战，Convergence 推出了 Proxy Lite，这是一款基于视觉语言模型（VLM）的迷你开源模型，专为 UI 导航任务设计，旨在将高效的 Web 自动化功能扩展到开源社区。

背景与挑战

1. 资源效率与泛化能力之间的平衡

许多现有的 Web 自动化工具虽然功能强大，但计算成本高昂，难以在资源受限的环境中部署。此外，这些工具通常针对特定任务进行优化，导致其在面对多样化网站时表现不佳。

2. 缺乏反思性推理

传统系统严重依赖提示预测，缺乏对 Web 环境不可预测性的适应能力。这种局限性使得它们在复杂或动态的 Web 场景中表现不稳定。

3. 专有模型的封闭性

许多高性能的专有模型限制了对其内部工作原理的访问，阻碍了开源社区的研究人员和开发者在其基础上进行改进和创新。

Proxy Lite 的技术优势

1. 轻量级架构

Proxy Lite 是一个拥有 3B 参数 的视觉语言模型，基于 Qwen2.5-VL-3B-Instruct 构建。它的设计目标是实现性能与效率之间的平衡，能够在不牺牲功能的情况下降低计算需求。

2. 三阶段推理流程

Proxy Lite 采用了一种结构化的三阶段流程来完成任务：

观察（Observation）：模型首先检查网页的当前状态，例如确认叠加层或隐私横幅是否已被关闭。
思考（Thinking）：模型根据上下文权衡各种可能性，确定下一步的最佳行动。
工具调用（Tool Call）：模型发出精确的命令以在浏览器中执行选定操作。

这种类似人类的推理过程不仅提高了任务的可靠性，还增强了模型在不同 Web 交互中的泛化能力。

3. 开源权重与透明设计

Proxy Lite 的核心优势在于其开源权重和透明的设计。通过公开模型权重，Convergence 鼓励社区探索、修改和改进其框架。这种开放性为学术研究和实际应用提供了宝贵的资源。

4. 集成系统支持

Proxy Lite 提供了一个集成系统，用于处理视觉语言模型（VLM）和浏览器交互。它支持从常规数据提取到复杂导航任务的实际应用，同时保持资源使用量在可控范围内。

5. 易于部署

Proxy Lite 支持直接集成到命令行界面和 Streamlit 应用程序中，即使对于技术资源有限的用户，也能轻松部署。

性能评估

Proxy Lite 已通过 WebVoyager 基准进行了全面测试，这是一组专门设计用于评估 Web 自动化功能的任务集合。以下是其在几个典型网站上的表现：

网站	成功率 (%)	平均消息交换次数	备注
Allrecipes	87.8	10.3	在内容丰富的环境中表现出色，证明了其高效的数据提取能力。
Amazon	70.0	-	能够成功导航复杂的电子商务平台，尽管某些动态元素可能需要进一步优化。
Apple	~80	-	在高知名度网站上表现出可靠的行为，适用于多种任务场景。
GitHub	~80	-	对代码托管平台的支持良好，适合开发相关任务。
Google Services	较低	-	在谷歌航班等特定领域表现较弱，但整体性能仍然具有竞争力。

总体而言，Proxy Lite 在 WebVoyager 基准测试中取得了 72.4% 的总分，这一成绩充分体现了其在开源权重模型中的竞争力。

应用场景

1. 数据提取：Proxy Lite 可以高效地从各种网站中提取结构化数据，适用于市场调研、竞争分析等场景。

2. 导航与交互：无论是简单的表单填写还是复杂的多步骤导航，Proxy Lite 都能提供可靠的解决方案。

3. 自动化测试：开发者可以利用 Proxy Lite 自动化 Web 应用程序的功能测试，减少手动测试的工作量。

4. 教育与研究：由于其开源性质，Proxy Lite 为学术研究和教学提供了理想的基础工具，帮助学生和研究人员探索 Web 自动化的前沿技术。

多模态模型 # Convergence # Proxy Lite # 视觉语言模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

像素空间推理视觉语言模型Pixel Reasoner：引入像素空间推理的概念，显著提升了视觉语言模型在视觉密集型任务中的表现

多模态模型 # Pixel Reasoner # 视觉语言模型

9个月前

03180

多模态智能体的“认知升级”：Web-CogReasoner 如何让网络代理真正“会思考”

多模态智能体的“认知升级”：Web-CogReasoner 如何让网络代理真正“会思考”

多模态模型 # Web-CogReasoner # 多模态智能体

7个月前

01300

Hugging Face推出Smol2Operator：让小模型学会操作图形界面

Hugging Face推出Smol2Operator：让小模型学会操作图形界面

多模态模型 # Hugging Face # Smol2Operator

6个月前

01210

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

基于 Qwen2-VL-7B 开发的实时视频理解大模型LiveCC：快速分析视频内容，并同步生成自然流畅的语音或文字解说

多模态模型 # LiveCC # Qwen2-VL-7B # 视频理解大模型

11个月前

03580

暂无评论

none

暂无评论...