昆仑万维天工项目组推出多模态推理模型 Skywork-R1V3-38B

多模态模型5个月前发布 小马良
208 0

昆仑万维天工项目组近日发布了 Skywork-R1V3-38B,这是其开源视觉-语言模型(VLM)系列 Skywork-R1V 的最新迭代版本,也是目前该系列中性能最强的多模态推理模型。基于 InternVL-38B 架构构建,并结合创新性的后训练强化学习策略,R1V3 在多个基准测试中实现了开源领域的 SOTA(State-of-the-Art)表现,显著推动了多模态与跨学科智能的发展。

技术亮点

Skywork-R1V3 是一个面向多模态推理任务设计的先进模型,其核心技术创新包括:

✅ 精炼的后训练强化学习

无需依赖传统的推理预训练流程,通过“细粒度冷启动微调”为后续的强化学习做好准备,从而大幅提升模型的推理能力。

🔗 关键连接器模块

研究发现,连接器模块在实现视觉与语言之间的高效对齐方面起着决定性作用。仅对连接器进行微调,即可在强化学习之后进一步提升模型整体表现。

🔢 关键推理令牌熵

引入了一种新的指标——“关键推理令牌的熵”,用于衡量模型的推理能力,并指导强化学习过程中的检查点选择,使训练更具针对性。

这些创新使得模型具备更强的跨领域泛化能力,不仅在数学推理上表现出色,还能将推理能力扩展到物理、化学、文学等多个学科领域。

主要功能

功能描述
视觉推理能够结合图像与文本信息进行复杂推理,如解决视觉数学题、逻辑推理等任务
跨模态对齐利用连接器模块实现图像与语言的有效融合,确保多模态输入协同工作
强化学习优化通过 RL 框架进一步提升推理能力,无需额外预训练
多领域迁移支持从数学向其他学科的推理能力迁移,适用于多种知识场景

主要特点

特点说明
创新训练框架基于冷启动微调 + 强化学习的组合,激活并增强模型推理能力
高效推理能力在多项多模态推理基准测试中达到开源模型领先水平,接近部分闭源顶尖模型
新型评估指标“关键推理令牌的熵”作为强化学习训练过程中的重要参考指标
跨领域泛化能力不仅擅长数学推理,还具备向其他学科迁移的能力

工作原理简述

  1. 冷启动微调(Cold Start Finetuning)
    使用早期版本 Skywork-R1V2 的数据集进行初始监督学习(SFT),为强化学习打下基础。
  2. 强化学习(Reinforcement Learning)
    采用 PPO 和 GRPO 等算法,通过最大化奖励函数优化模型的推理策略。
  3. 连接器模块(Connector Module)
    作为视觉与语言模态之间的桥梁,确保两者有效对齐与交互。
  4. 连接器唯一微调(Connector-Only Tuning)
    在 RL 后阶段专门调整连接器参数,以平衡模型的知识分布,提升非数学类任务的表现。

性能评估结果(主要基准)

基准测试Skywork-R1V3-38B 得分备注
MMMU76.0开源 SOTA,接近人类专家低值(76.2)
EMMA-Mini (CoT)40.3开源最佳
MMK1278.5开源最佳
PhyX-MC-TM52.8开源最佳
SeePhys31.5开源最佳
MME-Reasoning42.8超越 Claude-4-Sonnet
VisuLogic28.5开源最佳
MathVista77.1数学问题解决能力强
MathVerse59.6表现优异
MathVision52.6出色推理能力
© 版权声明

相关文章

暂无评论

none
暂无评论...