北邮、清华、腾讯联合推出 We-Math 2.0:构建有“知识体系”的数学推理智能体

多模态模型4个月前发布 小马良
458 0

在当前多模态大模型(MLLM)普遍依赖数据驱动“试错式”解题的背景下,北京邮电大学、清华大学与腾讯的研究团队提出了一条不同的技术路径:让模型真正理解数学

他们联合发布了 We-Math 2.0 —— 一个致力于系统性提升多模态模型数学推理能力的统一框架。不同于简单堆叠训练数据或优化提示工程,We-Math 2.0 的核心理念是:构建知识、结构化训练、渐进提升

其目标明确:使多模态大模型不仅“会算”,更要“懂理”,具备应对开放、复杂数学问题的深度理解力与泛化能力。

北邮、清华、腾讯联合推出 We-Math 2.0:构建有“知识体系”的数学推理智能体

为什么需要 We-Math?

当前多数多模态模型在面对数学问题时,尤其是涉及图形与符号结合的几何题、应用题,往往表现不稳定。原因在于:

  • 缺乏系统性数学知识组织;
  • 推理过程依赖模式匹配而非逻辑推导;
  • 对视觉信息的理解停留在表层,难以与数学原理关联。

为此,We-Math 团队从基础出发,构建了一套完整的“知识—数据—训练—评估”闭环体系,推动多模态数学推理迈向更深层次。

北邮、清华、腾讯联合推出 We-Math 2.0:构建有“知识体系”的数学推理智能体

We-Math 2.0 的四大核心组件

1. MathBook:结构化的数学知识体系

We-Math 2.0 的基石是一个名为 MathBook 的五级层次化知识体系,包含:

  • 491 个知识点(如“勾股定理”、“相似三角形判定”)
  • 1,819 条基本原理(包括定义、定理、推论等)

这些内容源自维基百科、开源教材等可信来源,经由 AI 初筛与人工专家双重修订,确保准确性与教学逻辑性。知识以“领域 → 主题 → 子主题 → 概念 → 原理”的五层结构组织,形成可追溯、可扩展的知识图谱。

✅ 示例:在“几何”领域下,“三角形”主题包含“全等”“相似”等子主题,进一步细化到“SAS 判定准则”等具体原理。

这一知识体系不仅是训练基础,也为后续的数据生成与评估提供了统一标准。

2. MathBook-Standard:覆盖全面的基础训练集

基于 MathBook 构建的 MathBook-Standard 是一个高质量、原理级标注的数据集,旨在实现广泛且均衡的知识覆盖。

其关键设计是“双重扩展”策略:

  • 一题多图:同一数学问题配以不同视觉表达(如不同角度的图形),增强模型对形式变化的鲁棒性;
  • 一图多题:同一图像衍生多个问题(如求面积、角度、比例),提升模型对语义差异的敏感度。

所有图像均使用 GeoGebra 手工绘制,确保几何关系精确无误。该数据集覆盖全部 491 个知识点,特别加强了传统数据集中被忽视的冷门领域。

3. MathBook-Pro:面向难度进阶的挑战性数据集

如果说 MathBook-Standard 是“打基础”,那么 MathBook-Pro 就是“练高手”。

它引入了一个三维难度建模框架,从三个正交维度系统性地控制问题复杂度:

维度描述
步骤复杂性涉及的知识点数量。最多可组合 6 个以上知识点,形成深层推理链。
视觉复杂性图形中添加辅助线、遮挡、变形等干扰项,考验模型对核心结构的识别能力。
语境复杂性将抽象数学题转化为现实场景(如“小明测量旗杆影子”),增加语言理解和语义解析难度。

每个原始问题通过逐步叠加这三个维度,生成 7 个渐进式变体,构成一条清晰的学习路径。这为模型提供了类似“课程学习”的训练节奏。

4. MathBookEval:全面评估数学能力的新基准

为了真实衡量模型的数学理解水平,团队同步推出 MathBookEval —— 一个覆盖全部 491 个知识点的综合评测集。

其特点包括:

  • 问题类型多样,涵盖代数、几何、概率、应用题等;
  • 推理步骤分布广泛,从单步到多步递进;
  • 注重知识迁移能力,避免模型依赖记忆或模板匹配。

该基准不再只看最终答案是否正确,更关注推理过程的合理性与知识调用的准确性。

训练方法:两阶段强化学习,实现渐进对齐

We-Math 2.0 的训练策略被称为 MathBook-RL,采用两阶段强化学习框架,引导模型从“知道”走向“会用”。

第一阶段:冷启动微调(Cold-Start Fine-tuning)

在 MathBook-Standard 上进行监督微调,目标是让模型初步建立“知识驱动”的思维链习惯。例如,在解几何题时,先识别涉及的知识点(如“平行线性质”),再据此展开推理。

这一步相当于为模型植入“知识意识”。

第二阶段:渐进式强化学习(Progressive Alignment RL)

分为两个子阶段:

(1)预对齐强化学习

在同一知识点下的多个变体上训练,计算平均奖励,鼓励模型在不同表现形式中保持推理一致性,而非依赖特定题目特征。

(2)动态调度强化学习

基于 MathBook-Pro 的难度轨迹,按“步骤 → 视觉 → 语境”顺序逐步提升挑战。

当模型在某一级失败时,系统会自动触发“增量学习”机制:

  • 若因新增知识点失败 → 从 MathBook-Standard 中采样该知识点的辅助题;
  • 若因视觉或语境干扰失败 → 提供单模态简化题进行专项训练。

这种“哪里不会补哪里”的动态调度策略,显著提升了训练效率与稳定性。

实验结果:全面领先,泛化能力突出

We-Math 2.0 在多个主流数学推理基准上表现优异:

基准准确率相比 Qwen2.5-VL-7B 提升
MathVista48.7%+6.1%
MathVision73.0%+4.8%
We-Math28.0%+2.9%
MathVerse48.4%+7.4%

在自建基准 MathBookEval 上,模型展现出更强的多步推理能力和几何理解深度,尤其在跨知识点组合任务中优势明显。

消融实验表明,知识体系引导动态难度调度是性能提升的关键因素。

© 版权声明

相关文章

暂无评论

none
暂无评论...