多模态智能体的“认知升级”：Web-CogReasoner 如何让网络代理真正“会思考”

130 0

联合研究团队：西南财经大学、上海交通大学、中南大学、Hithink研究院、西湖大学、哈尔滨工业大学、曼彻斯特大学、加州大学洛杉矶分校、阿德莱德大学、复旦大学、中国科学院深圳先进技术研究院

当AI开始替我们浏览网页、填写表单、完成购物，你是否曾想过：它究竟是“看图行事”，还是真的“理解”了任务？

近年来，基于多模态大模型的网络代理（Web Agent）在模拟人类操作网页方面取得了显著进展。但多数系统仍停留在“感知—执行”的表层模式，缺乏对任务本质的理解和推理能力。它们能“看见”按钮，却未必知道“为何点击”；能完成步骤，却难以应对变化。

多模态智能体的“认知升级”：Web-CogReasoner 如何让网络代理真正“会思考”

为突破这一瓶颈，来自国内外11所高校与研究机构的联合团队提出了一种全新的认知架构——Web-CogReasoner。它不再依赖端到端的黑箱决策，而是从认知科学出发，系统性地构建代理的“知识体系”与“思维过程”。这项研究不仅提升了代理在复杂任务中的表现，也为AI如何“理解”数字世界提供了可解释的新路径。

项目主页：https://eohan.me/Web-CogReasoner
GitHub：https://github.com/Gnonymous/Web-CogReasoner

一、从“模仿操作”到“理解任务”：认知能力的缺失

当前的网络代理大多依赖视觉或DOM信息，通过大量数据训练实现端到端的行为预测。这类方法在简单任务中表现尚可，但在面对新网站、新流程或动态干扰时，往往因缺乏深层理解而失败。

问题的核心在于：代理是否具备像人一样的“认知结构”？

受教育心理学中布卢姆分类法（Bloom’s Taxonomy）的启发，研究团队将代理的能力划分为两个核心阶段：

知识内容学习：掌握“是什么”——包括事实性与概念性知识；
认知过程执行：解决“如何做”——依赖程序性知识进行推理与规划。

基于这一划分，团队提出了Web-CogKnowledge 框架，并在此基础上开发了具备结构化认知能力的代理：Web-CogReasoner。

二、构建认知的“地基”：Web-CogDataset

要让代理“会思考”，首先得让它“有知识”。为此，团队构建了 Web-CogDataset ——一个系统化、课程式组织的知识训练集。

该数据集源自14个真实网站（涵盖电商、金融、社交等场景），包含12项渐进式任务，共21万样本，按知识类型分为三层：

1. 事实性知识（81K样本）

目标：训练代理识别网页中的具体元素与状态。

示例任务：识别按钮文本、预测点击后页面变化、判断某元素属于哪个父节点。
对应认知层级：记忆（Remember）

2. 概念性知识（62K样本）

目标：帮助代理理解界面背后的逻辑与语义。

示例任务：解释“购物车图标”的功能、说明页面布局的意图、回答“为什么这个字段是必填的”。
对应认知层级：理解（Understand）

3. 程序性知识（27K样本）

目标：教会代理如何规划并执行任务。

示例任务：预测用户下一步意图、关闭弹窗干扰、完成多步注册流程。
对应认知层级：应用与探索（Apply & Explore）

这种分层设计模拟了人类学习的过程：从记忆事实，到理解含义，再到实践应用，逐步建立完整的认知链条。

三、评估认知能力：Web-CogBench 基准发布

现有评估基准多关注任务完成率或视觉匹配精度，难以衡量代理是否真正“理解”了任务。为此，团队推出了 Web-CogBench ——首个专注于评估网络代理认知能力的测试套件。

该基准包含876个测试样本，覆盖三大认知维度：

认知能力	测试内容	关键指标
记忆	元素属性识别、下一页预测、源元素追溯	ROUGE-L、准确率
理解	元素功能解释、页面语义分析	LVM Judge（语义评分）
探索	用户意图推断、弹窗处理、单步任务执行	准确率

每个任务都要求代理不仅输出动作，还需提供基于知识的推理过程。例如，在“关闭弹窗”任务中，模型不仅要做出正确操作，还需说明：“这是一个广告弹窗，不影响主任务，应关闭以减少干扰。”

🔍 亮点：Web-CogBench 将随论文开源，旨在推动社区对“认知型代理”的系统研究。

四、让推理“可追溯”：知识驱动的思维链（CoT）

传统思维链（Chain-of-Thought）推理常产生虚构或不一致的中间步骤。Web-CogReasoner 则引入了知识驱动的CoT机制，确保每一步推理都锚定在明确的知识类型上。

其推理流程分为三个层级，颜色编码便于追踪：

蓝色：事实性知识
- 问题：“页面上有什么？”
- 行为：提取DOM结构、ARIA标签、文本内容等可观测信息。
绿色：概念性知识
- 问题：“这个元素意味着什么？”
- 行为：推断按钮用途（如“提交订单”）、判断字段类型（如“密码输入框”）。
黄色：程序性知识
- 问题：“任务应该如何完成？”
- 行为：分解目标、规划步骤、处理异常（如验证码弹出）。

这种模块化、分阶段的推理结构，使整个决策过程可解释、可调试、可复现，也为后续优化提供了清晰路径。

五、实测表现：认知能力带来泛化优势

团队在多个基准上对比了 Web-CogReasoner 与其他主流模型的表现。

1. 认知 vs 视觉能力对比

模型	Web-CogBench（认知）	VisualWebBench（视觉）
Claude Sonnet 4	76.8%	85.9%
Gemini 2.5 Pro	80.2%	86.6%
Qwen2.5-VL-7B	69.8%	76.0%
UI-TARS-7B-SFT	46.4%	86.0%
Web-CogReasoner（ ours）	84.4%	86.3%

💡 关键发现：UI-TARS 虽在视觉任务中表现优异（86.0%），但在认知任务中大幅落后（46.4%），说明视觉感知强 ≠ 认知能力强。而 Web-CogReasoner 在两项指标上均达到领先水平。

2. 在线复杂任务泛化能力

模型	WebVoyager（泛化）	Mind2Web（跨任务）	Mind2Web（跨网站）
Claude Sonnet 4	47.7%	40.2%	21.7%
Gemini 2.5 Pro	54.9%	37.5%	25.5%
Qwen2.5-VL-7B	2.2%	1.0%	1.0%
OpenWebVoyagerIL	18.1%	6.3%	6.6%
Web-CogReasoner（ours）	30.2%	17.0%	10.1%