昆仑万维开源多模态思维链推理模型 Skywork R1V

昆仑万维正式开源了首款工业界多模态思维链推理模型Skywork R1V,成为中国第一个开源此类模型的企业。这一举措标志着昆仑万维在多模态 AI 领域的领先地位,并为全球开发者和研究人员提供了强大的工具,推动多模态推理技术的发展。

昆仑万维开源多模态思维链推理模型 Skywork R1V

模型特点

Skywork R1V 是一种能够解决需要思维链(Chain-of-Thought)的视觉任务的模型。它通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,还强调通过层层递进的推理路径,实现复杂视觉问题的精准求解。其应用场景包括视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等。

性能表现

  1. 推理能力
    • 在权威的 MATH500 基准测试中,Skywork R1V 取得了 94.0 分。
    • AIME 基准测试中,Skywork R1V 取得了 72.0 分,展现了顶尖的逻辑推理与数学分析能力。
  2. 视觉理解能力
    • MMMU 视觉推理基准测试中,Skywork R1V 取得了 69 分。
    • MathVista 视觉推理基准测试中,Skywork R1V 取得了 67.5 分,成功地将文本推理与思维链推导能力迁移到视觉任务中。

关键技术创新

Skywork R1V 模型拥有三项关键技术创新,使其在多模态推理任务中表现出色:

  1. 文本推理能力的多模态高效迁移
    • 技术细节:昆仑万维团队首次提出利用 Skywork-VL 的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务。
    • 优势:保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0),同时提升了视觉任务的推理能力。
  2. 多模态混合式训练(Iterative SFT + GRPO)
    • 技术细节:通过结合 迭代监督微调(Iterative SFT)GRPO 强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合。
    • 优势:推动模型在 MMMU 基准达到 69 分的能力,同时在 MathVista 达到 67.5 分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。
  3. 自适应长度思维链蒸馏
    • 技术细节:团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量。
    • 优势:促进了模型在复杂多模态任务中的表现,提高了推理效率和精度。
© 版权声明

相关文章

暂无评论

none
暂无评论...