Open-Vision-Reasoner（OVR）：基于语言认知迁移的多模态视觉推理新范式

335 0

大语言模型（LLMs）之所以具备强大的推理能力，关键在于其通过可验证奖励机制的强化学习所涌现的认知行为。那么，是否可以将这一原则迁移至多模态大语言模型（MLLMs），从而解锁其高级视觉推理能力？

本研究由约翰·霍普金斯大学、StepAI、北京邮电大学、中国科学院大学、纽约大学、华中科技大学等机构联合完成，提出了一种基于 Qwen2.5-VL-7B 的双阶段训练范式，首次在开源领域实现了大规模、长周期的多模态强化学习（RL），训练步数接近1000步，远超以往研究。

项目主页：https://weiyana.github.io/Open-Vision-Reasoner
GitHub：https://github.com/Open-Reasoner-Zero/Open-Vision-Reasoner
模型：https://huggingface.co/Kangheng/OVR-7B-RL

通过这一开创性工作，研究团队揭示了三个核心发现：

语言冷启动阶段中，视觉认知行为意外地早期涌现；
冷启动广泛记忆视觉行为，而强化学习关键性识别并放大有效模式；
行为转移具有战略性，优先放大高实用性行为，如视觉反思与目标追踪。

研究团队最终训练出的模型——Open-Vision-Reasoner（OVR），在多个高级视觉推理基准测试中取得了当前7B级别模型中的最优性能：

MATH500：95.3%
MathVision：51.8%
MathVerse：54.6%

研究团队已公开模型、训练数据与完整训练动态，旨在推动更强大、行为对齐的多模态推理器的发展。

视觉认知行为的定义与迁移

研究团队认为，语言模型中的认知行为（如回溯、子目标分解、验证等）在多模态场景中可以拓展为一系列视觉认知行为。这些行为包括：

行为	定义	示例
视觉反思（Visual Reflection）	模型在视觉任务中回顾和评估自身推理过程	“让我再仔细看一下这张图”
分而治之（Divide and Conquer）	将复杂视觉任务分解为多个子任务处理	“我需要先识别图中各个物体，再分析它们的关系”
视觉验证（Visual Validation）	通过视觉信息验证中间推理结果	“图中显示的数字是5，所以我的计算应该是正确的”
目标驱动的视觉追踪（Goal-Driven Visual Tracking）	以目标为导向，逐步追踪视觉信息	“我需要找到图中红色区域，然后判断其是否与其他区域重叠”

这些行为不仅在语言任务中广泛存在，也在多模态任务中展现出显著的迁移能力。

训练范式设计：语言冷启动 + 多模态强化学习

为实现高效的多模态认知迁移，研究团队采用了“带冷启动的强化学习”训练范式，分为两个阶段：

阶段1：语言冷启动（Language Cold Start）

使用从 DeepSeek-R1 提炼出的纯语言推理数据集，进行监督微调
在纯语言环境中建立基础认知行为，如回溯、验证、子目标分解等
模型在这一阶段展现出意外的视觉认知行为早期涌现，表明语言推理能力对视觉推理具有潜在迁移价值

阶段2：多模态强化学习（Multimodal Reinforcement Learning）

在文本与多模态任务上，使用基于可验证匹配奖励的强化学习策略
推动推理泛化能力提升，并将已有的语言认知行为与视觉上下文对齐
这一阶段是行为筛选与放大的关键过程，有效提升了模型的跨模态泛化能力

模型性能表现

✅ 语言推理能力

OVR 在语言推理任务中表现出色：

在 AIME 2024/2025 上，平均性能超越其他 7B 级别开源模型 10% 以上，接近 32B 级别模型
在 MMLU 和 MMLU-Pro 上分别提升 +4.6% 和 +10.4%，显著优于参数相近的模型

这表明研究团队所采用的高质量冷启动训练数据具有极高的有效性。

✅ 视觉推理能力

OVR 在 7B 规模的视觉推理任务中取得突破性进展：

基准	性能	说明
MathVision	51.8%	首个突破50%门槛的7B级模型
MathVerse	54.6%	当前7B级模型中表现最佳
DynaMath	优异表现	展现出强大的动态视觉推理能力
MMMU-Pro	+7.2% 提升	表明其在复杂多模态任务中具有广泛适应性

这些结果表明，语言推理能力可以通过有效训练迁移到视觉任务中，并显著提升多模态模型的推理表现。

训练动态分析

研究团队对训练过程中的关键指标进行了深入分析：

冷启动阶段：损失逐步下降，行为模式快速建立；
强化学习阶段：奖励（紫色，左轴）与响应长度（橙色，右轴）稳步增长，在每次序列扩展后出现显著上升。

这表明：响应长度可以作为奖励的代理指标，反映出推理深度与资源消耗之间的关系。

深入行为分析

1. 视觉行为在冷启动阶段即已显现

令人惊讶的是，即便在纯语言任务中，DeepSeek-R1 的输出也频繁展现出心理意象的特征，例如：

“让我想象一下这个场景”
“我可以通过图像来理解这个问题”

这表明，语言模型在冷启动阶段已经开始构建内部视觉表示，以辅助推理过程。

2. 冷启动广泛记忆，强化学习关键识别

训练数据显示：

冷启动阶段快速灌输大量模式
随后在强化学习阶段，这些模式被筛选、放大，最终保留最有效的认知行为

这种机制类似于“先广度后深度”的学习策略，表明：冷启动负责记忆，强化学习负责筛选。

3. 行为转移具有战略性

研究团队观察到，回溯行为的转移率从 2.5% 提升至 17.3%，而验证行为在冷启动和强化学习阶段几乎为零。

这说明：

回溯行为更容易从语言任务迁移到视觉任务，可能源于其与“心理想象”能力的天然关联；
验证行为缺乏语言前身，因此在多模态任务中更难内化；
强化学习阶段优先放大对视觉推理更为基础的行为，如回溯，体现了其战略性选择机制。

视觉感知分析与未来方向

冷启动削弱感知，强化学习增强感知

研究团队在 OVR 的两个训练阶段以及基础模型 Qwen2.5-VL-7B 上进行了多模态感知评估，结果如下：

任务	性能变化	说明
MMBench	显著提升	强化学习有效恢复感知能力
PhyX	稳步增长	表明训练范式对物理推理有效
BLINK	有所恢复	显示多模态强化学习对幻觉问题有缓解作用

然而，研究团队也发现：