在大模型时代,人们对机器的期望已经不再局限于简单的语音识别或声音分类,而是希望机器能够具备复杂的推理能力。例如,通过汽车座舱的录音判断车辆是否存在潜在故障,从交响乐中推测作曲家的情绪,或者在地铁站的嘈杂声中预判可能的冲撞风险。这些场景都需要机器能够理解声音背后的因果逻辑和情感意图。
MMAU评测集:音频推理能力的量化标尺
为了衡量模型在音频推理领域的表现,MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集应运而生。它包含一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在27种技能上的表现,例如跨场景推理和专业知识应用。MMAU期望模型能够达到接近人类专家的逻辑分析水平。
人类专家在MMAU上的准确率为82.23%,这是一个极具挑战性的基准。目前,MMAU官网榜单上表现最好的模型是OpenAI的GPT-4o,准确率为57.3%;紧随其后的是Google DeepMind的Gemini 2.0 Flash,准确率为55.6%。
Qwen2-Audio-7B模型的探索
来自阿里的Qwen2-Audio-7B模型在MMAU评测集上的初始准确率为49.2%。为了提升其性能,研究者尝试使用清华大学发布的AVQA数据集进行微调。AVQA数据集包含3.8万条训练样本,通过全量有监督微调(SFT),模型在MMAU上的准确率提升到了51.8%。然而,这一提升并不显著。
强化学习带来的突破
DeepSeek-R1的发布为音频推理任务的研究带来了新的启发。其Group Relative Policy Optimization(GRPO)方法,通过“试错-奖励”机制,让模型自主进化,涌现出类似人类的反思和多步验证等推理能力。与此同时,卡内基梅隆大学发布的论文预印本指出,在存在明显生成-验证差距的任务中,强化学习相比有监督微调具有独特优势。音频问答(AQA)任务正是这种生成-验证差距显著的任务。
以一个生动的比喻来说,离线微调方法(如SFT)类似于背题库,只能根据已有的题目和答案进行训练,遇到新题可能无能为力;而强化学习方法(如GRPO)则像老师引导学生多想几个答案,然后告诉学生哪个答案更好,激发学生的主动思考能力。强化学习的实时反馈能够帮助模型更快地锁定高质量答案的分布区域,而离线方法则需要遍历整个可能性空间,效率较低。
基于这些洞察,小米的研究团队将DeepSeek-R1的GRPO算法迁移到Qwen2-Audio-7B模型上。结果令人惊喜:在仅使用AVQA的3.8万条训练样本的情况下,强化学习微调后的模型在MMAU评测集上实现了64.5%的准确率,比目前榜单上第一名的商业闭源模型GPT-4o高出近10个百分点。
- 训练代码:https://github.com/xiaomi-research/r1-aqa
- 模型参数:https://huggingface.co/mispeech/r1-aqa
- 技术报告:https://arxiv.org/abs/2503.11197
- 交互 Demo:http://120.48.108.147:7860
更有趣的是,当在训练中强制要求模型输出推理过程(类似于传统思维链方法)时,准确率反而下降至61.1%。这表明显式的思维链结果输出可能并不利于模型的训练。

实验的启示
此次实验揭示了几个与传统认知不同的结论:
微调方法:强化学习在3.8万条数据集上的表现显著超过了监督学习在57万条数据集上的结果。 参数规模:相比千亿级模型,7B参数的模型通过强化学习也能展现出强大的推理能力。 隐式推理:显式思维链输出反而成为性能瓶颈。
尽管当前准确率已突破64%,但距离人类专家82%的水平仍有差距。目前的强化学习策略还比较粗糙,训练过程对思维链的引导并不充分。研究者将在后续工作中进一步探索。