上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

多模态模型3个月前发布 小马良
91 0

上海AI实验室InternVL项目组推出 InternVL3.5,这是一个开源的多模态大语言模型(MLLM)系列,旨在提升模型在多功能性、推理能力和效率方面的表现。

InternVL3.5 通过一系列创新技术,如级联强化学习(Cascade RL)、视觉分辨率路由器(ViR)和解耦视觉语言部署(DvD),显著提高了模型的推理性能和效率。

  • 多功能性:InternVL3.5 不仅能够处理传统的文本和图像理解任务,还能进行复杂的数学推理(如解决数学问题)、多图像理解(如跨图像推理)以及图形用户界面(GUI)交互等任务。
  • 推理能力:在数学推理任务 MathVista 上,InternVL3.5-241B-A28B 的得分达到了 82.7,接近顶级商业模型 GPT-5 的表现(84.2),显示出强大的推理能力。
  • 效率提升:与 InternVL3 相比,InternVL3.5 在推理速度上实现了 4.05 倍 的提升,同时在整体推理性能上提高了 16.0%
上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

主要功能

  1. 多功能性:支持多种任务,包括文本理解、图像理解、数学推理、多图像理解、视频理解、GUI 交互、图形生成等。
  2. 推理能力:在复杂的多模态推理任务中表现出色,如 MMMU(多学科推理)和 MathVista(数学推理)。
  3. 效率提升:通过 ViR 和 DvD 技术,显著提高了模型的推理速度,降低了计算成本。
  4. 开源性:所有模型和代码均公开发布,便于社区使用和进一步研究。

主要特点

  1. 级联强化学习(Cascade RL):结合了离线强化学习(MPO)和在线强化学习(GSPO),通过两阶段训练提升模型的推理能力。
  2. 视觉分辨率路由器(ViR):动态调整视觉令牌的分辨率,减少推理成本,同时保持性能。
  3. 解耦视觉语言部署(DvD):将视觉编码器和语言模型部署在不同的 GPU 上,优化计算负载,提高推理速度。
  4. 测试时扩展(Test-Time Scaling):通过深度思考和并行思考策略,进一步提升模型的推理能力。

工作原理

  1. 级联强化学习(Cascade RL)
    • 离线阶段:使用混合偏好优化(MPO)进行高效训练,快速收敛到稳定结果。
    • 在线阶段:使用组序列策略优化(GSPO)进一步优化模型输出分布,提升推理性能。
  2. 视觉分辨率路由器(ViR)
    • 通过评估图像块的语义丰富度,动态选择合适的压缩率,减少视觉令牌数量,降低推理成本。
  3. 解耦视觉语言部署(DvD)
    • 将视觉编码器和语言模型分别部署在不同的 GPU 上,减少计算阻塞,提高推理效率。
上海AI实验室InternVL项目组发布多模态大语言模型系列InternVL3.5

测试结果

  1. 多功能性
    • 在 MMStar 上,InternVL3.5-241B-A28B 的得分达到了 77.9,与 GPT-5(75.7)相当。
    • 在 MMBench v1.1 (en) 上,InternVL3.5-241B-A28B 的得分达到了 87.4,接近 GPT-5(88.6)。
  2. 推理能力
    • 在 MMMU 上,InternVL3.5-241B-A28B 的得分达到了 77.7,接近 GPT-5(84.2)。
    • 在 MathVista 上,InternVL3.5-241B-A28B 的得分达到了 82.7,接近 GPT-5(81.9)。
  3. 效率提升
    • 与 InternVL3 相比,InternVL3.5 在推理速度上实现了 4.05 倍 的提升,同时在整体推理性能上提高了 16.0%
© 版权声明

相关文章

暂无评论

none
暂无评论...