阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

随着DeepSeek R1的发布,强化学习在大模型领域的潜力得到了进一步挖掘。Reinforcement Learning with Verifiable Reward(RLVR)方法为多模态任务提供了全新的优化思路,在几何推理、视觉计数、图像分类和物体检测等任务中展现了显著优于传统监督微调(SFT)的效果。

阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

然而,现有研究大多集中在Image-Text多模态任务上,尚未涉足更复杂的全模态场景。基于此背景,通义实验室团队探索了RLVR与视频全模态模型的结合,并于近日宣布开源R1-Omni模型。

R1-Omni亮点

R1-Omni的一大亮点在于其透明性,即增强的推理能力。通过RLVR方法,音频信息和视频信息在模型中的作用变得更加清晰可见。例如,在情绪识别任务中,R1-Omni能够明确展示哪些模态信息对特定情绪判断起到了关键作用。

研究揭示了以下关键见解:

  1. 增强的推理能力:R1-Omni 展示了卓越的推理能力,让人们能够更清晰地理解视觉和音频信息如何共同作用于情感识别。
  2. 提升的理解能力:与 SFT 相比,RLVR 在情感识别任务上的表现显著提高。
  3. 更强的泛化能力:RLVR 模型在分布外场景中表现出色,显示出明显更好的泛化能力。

工作原理

冷启动阶段

使用 Explainable Multimodal Emotion Reasoning (EMER) 数据集和手动标注的 HumanOmni 数据集初始化模型,使其具备初步的情感推理能力。EMER 数据集包含详细的推理标注,帮助模型学习如何结合视觉和音频信息进行情感识别。

强化学习优化

  • 奖励函数设计:奖励函数分为两部分——准确性奖励(Racc)和格式奖励(Rformat)。准确性奖励评估情感预测是否正确,格式奖励确保输出符合预定义的结构。
  • GRPO 优化:通过生成多个候选响应并比较它们的奖励值,模型学习优先选择高奖励的响应,从而提升推理能力和输出质量。

多模态输入处理

模型接收视频帧和音频流作为输入,生成带有推理过程的候选响应。推理过程详细解释视觉和音频信息如何共同影响情感识别。

例如,有一个视频片段,其中一个人在说话,表情愤怒,声音高亢且急促。传统的情感识别模型可能只能识别出愤怒的情绪,但无法解释其推理过程。而 R1-Omni 不仅能准确识别出愤怒情绪,还能详细解释其推理过程:“视频中人物的表情愤怒,眼神锐利,声音高亢且急促,这些视觉和音频线索共同表明人物处于愤怒状态。”

实验验证

为了验证 R1-Omni 的性能,通义实验室团队将其与原始的 HumanOmni-0.5B 模型、冷启动阶段的模型以及在 MAFW 和 DFEW 数据集上有监督微调的模型进行了对比。
实验结果显示:

  • 在同分布测试集(DFEW 和 MAFW)上,R1-Omni 相较于原始基线模型平均提升超过 35%,相较于 SFT 模型在 UAR 上的提升高达 10% 以上。
  • 在不同分布测试集(RAVDESS)上,R1-Omni 同样展现了卓越的泛化能力,WAR 和 UAR 均提升超过 13%
阿里通义实验室开源R1-Omni:用强化学习解锁全模态大模型的新潜力

这些结果充分证明了 RLVR 在提升推理能力和泛化性能上的显著优势。

© 版权声明

相关文章

暂无评论

none
暂无评论...