VLM-R3:增强多模态链式思考(CoT)的能力

新技术6个月前发布 小马良
287 0

北京大学国家软件工程工程研究中心、阿里巴巴和中科智库的研究人员推出VLM-R3的框架,增强多模态链式思考(CoT)的能力。VLM-R3通过动态和迭代地关注和重新访问图像区域,实现文本推理在视觉证据中的精确定位。

例如,在分析一张包含多个物体的图像时,VLM-R3能够逐步验证假设、跟踪物体状态或理解复杂的空间关系,从而得出准确的结论。

主要功能

  • 区域识别与推理:决定何时需要额外的视觉证据,确定在图像中何处进行定位,并将相关的子图像内容无缝地融入交错的思考链中。
  • 动态视觉聚焦:在推理过程中动态选择和处理图像区域,如裁剪和放大,以获取更详细的视觉信息。
  • 多步推理:支持多步推理,允许模型在推理链中多次查询和处理图像区域。

主要特点

  • 区域条件强化策略优化(R-GRPO):通过奖励模型选择信息丰富的区域、制定适当的变换(如裁剪、放大)并将结果视觉上下文整合到后续推理步骤中,优化模型的区域选择和推理能力。
  • Visuo-Lingual Interleaved Rationale(VLIR)数据集:为训练和评估提供步骤级监督,包含视觉区域定位、图像裁剪指令和语义增强线索的显式注释。
  • 交互式推理管道:允许模型在推理过程中动态选择和整合视觉信息,支持多步、自适应的视觉定位。

工作原理

VLM-R3的工作原理基于以下关键部分:

  • 数据集VLIR:通过精心策划的数据集提供步骤级监督,帮助模型学习如何在推理过程中动态选择和处理图像区域。
  • 交互式推理管道:模型在推理过程中可以动态地选择和处理图像区域,如裁剪和放大,以获取更详细的视觉信息。处理后的图像区域被编码为视觉标记并附加到模型的输入序列中,为模型提供新的上下文。
  • R-GRPO训练策略:通过强化学习优化模型的区域选择和推理策略,奖励模型选择信息丰富的区域并将其整合到推理链中。

测试结果

  • 多模态推理基准测试:在MathVista、ScienceQA等基准测试中,VLM-R3在零样本和少样本设置中均取得了新的最佳性能,特别是在需要微妙空间推理或精细视觉线索提取的问题上表现突出。
  • 具体性能提升:在MathVista上,VLM-R3的准确率从68.2%提升到70.4%;在MathVision上,准确率从25.1%提升到30.2%;在ScienceQA上,准确率从73.6%提升到87.9%。
© 版权声明

相关文章

暂无评论

none
暂无评论...