VLM-R3：增强多模态链式思考（CoT）的能力

新技术9个月前发布小马良

360 0

北京大学国家软件工程工程研究中心、阿里巴巴和中科智库的研究人员推出VLM-R3的框架，增强多模态链式思考（CoT）的能力。VLM-R3通过动态和迭代地关注和重新访问图像区域，实现文本推理在视觉证据中的精确定位。

论文：https://arxiv.org/abs/2505.16192

例如，在分析一张包含多个物体的图像时，VLM-R3能够逐步验证假设、跟踪物体状态或理解复杂的空间关系，从而得出准确的结论。

主要功能

区域识别与推理：决定何时需要额外的视觉证据，确定在图像中何处进行定位，并将相关的子图像内容无缝地融入交错的思考链中。
动态视觉聚焦：在推理过程中动态选择和处理图像区域，如裁剪和放大，以获取更详细的视觉信息。
多步推理：支持多步推理，允许模型在推理链中多次查询和处理图像区域。

主要特点

区域条件强化策略优化（R-GRPO）：通过奖励模型选择信息丰富的区域、制定适当的变换（如裁剪、放大）并将结果视觉上下文整合到后续推理步骤中，优化模型的区域选择和推理能力。
Visuo-Lingual Interleaved Rationale（VLIR）数据集：为训练和评估提供步骤级监督，包含视觉区域定位、图像裁剪指令和语义增强线索的显式注释。
交互式推理管道：允许模型在推理过程中动态选择和整合视觉信息，支持多步、自适应的视觉定位。

工作原理

VLM-R3的工作原理基于以下关键部分：

数据集VLIR：通过精心策划的数据集提供步骤级监督，帮助模型学习如何在推理过程中动态选择和处理图像区域。
交互式推理管道：模型在推理过程中可以动态地选择和处理图像区域，如裁剪和放大，以获取更详细的视觉信息。处理后的图像区域被编码为视觉标记并附加到模型的输入序列中，为模型提供新的上下文。
R-GRPO训练策略：通过强化学习优化模型的区域选择和推理策略，奖励模型选择信息丰富的区域并将其整合到推理链中。

测试结果

多模态推理基准测试：在MathVista、ScienceQA等基准测试中，VLM-R3在零样本和少样本设置中均取得了新的最佳性能，特别是在需要微妙空间推理或精细视觉线索提取的问题上表现突出。
具体性能提升：在MathVista上，VLM-R3的准确率从68.2%提升到70.4%；在MathVision上，准确率从25.1%提升到30.2%；在ScienceQA上，准确率从73.6%提升到87.9%。

新技术 # VLM-R3 # 多模态推理

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

FRESCO：将输入的视频转换成具有特定风格的新视频，同时保持视频中的语义内容和动作的连贯性

FRESCO：将输入的视频转换成具有特定风格的新视频，同时保持视频中的语义内容和动作的连贯性

新技术 # FRESCO # 视频转换

2年前

04770

新型视频生成框架VideoGuide：改善视频生成模型在时间连续性方面的性能，同时保持甚至提高生成视频的图像质量

新型视频生成框架VideoGuide：改善视频生成模型在时间连续性方面的性能，同时保持甚至提高生成视频的图像质量

新技术 # VideoGuide # 视频生成框架

1年前

04260

开源版风格参考StyleCodes：能够将图像风格表达为一个 20 符号的 base64 代码

开源版风格参考StyleCodes：能够将图像风格表达为一个 20 符号的 base64 代码

新技术 # Midjourney # StyleCodes # 风格参考

1年前

05290

西湖大学推出一款具备自我进化能力的 GUI 代理AppAgentX

西湖大学推出一款具备自我进化能力的 GUI 代理AppAgentX

新技术 # AI智能体 # AppAgentX # GUI 代理

1年前

03410

暂无评论

none

暂无评论...