
加州大学圣地亚哥分校(UCSD)近日推出 WildScore ——一个面向多模态大语言模型(MLLM)的新型评估基准,专门用于衡量 AI 在真实音乐理论问题中的符号理解与推理能力。
与传统合成数据不同,WildScore 基于十年间真实用户在 Reddit 音乐理论社区中提出的复杂问题,结合嵌入的乐谱图像和高质量回答,构建了一个真实、可扩展、结构化的评估体系。

它不仅是对 MLLM 音乐能力的“压力测试”,也为未来音乐 AI 的发展提供了明确的评估路径。
为什么需要 WildScore?
尽管当前多模态模型在图像、文本、语音等领域表现出色,但在符号音乐理解方面仍存在明显短板:
- 多数模型仅能识别音符位置,无法理解和声功能、节奏结构或演奏意图;
- 现有评估数据集多为人工生成或简化任务,缺乏真实场景复杂性;
- 缺乏系统性分类体系,难以定位模型在不同音乐学领域的表现差异。
WildScore 正是为了填补这一空白而设计。
数据来源:来自真实社区的“野外”数据
WildScore 的数据源自 Reddit 的 r/musictheory 论坛(2012–2022),涵盖十年间用户提出的音乐分析问题,具备高度真实性与多样性。
数据构建流程:
- 收集:提取包含嵌入式乐谱图像的帖子;
- 过滤:使用基于 YOLO 微调的检测器筛选出符号音乐图像,排除文字截图或非乐谱内容;
- 标准化:将用户提问与高赞回答(基于社区 upvotes–downvotes 排序)配对;
- 转化为 MCQ:利用 GPT-4.1-mini 将问答转化为多项选择题(MCQ),确保语义一致且选项合理;
- 分类标注:按预设音乐学本体进行系统分类。
最终数据集包含 807 个高质量样本,覆盖五类核心音乐理论领域。
评估体系:系统性分类与双模态设置
五大高级类别(+12 个子类)
| 类别 | 示例问题 |
|---|---|
| 和声与调性(Harmony & Tonality) | “该小节属于哪个调?是否存在转调?” |
| 节奏与节拍(Rhythm & Meter) | “这个节奏型的节拍划分是什么?” |
| 织体(Texture) | “这段是主调还是复调写作?” |
| 表情与演奏(Expression & Performance) | “这些符号表示何种演奏法?” |
| 曲式(Form) | “这段属于奏鸣曲式的哪个部分?” |
该分类体系支持对模型进行细粒度能力诊断,识别其优势与短板。
两种评估模式
| 模式 | 说明 | 目的 |
|---|---|---|
| Image+Text | 提供乐谱图像 + 文本问题 | 测试完整多模态推理能力 |
| Text-only | 仅提供问题描述(无图像) | 消融实验,评估视觉输入的实际贡献 |
通过对比两种模式下的表现,可判断模型是否真正“读懂”了乐谱。
测试结果:模型表现差异显著
在 EMNLP 2025 发布的初步评估中,多个主流 MLLM 参与测试,结果揭示了当前音乐理解 AI 的真实水平。
整体准确率(%)
| 模型 | Image+Text | Text-only |
|---|---|---|
| GPT-4.1-mini | 68.31 | 65.76 |
| Qwen-VL | 49.73 | 49.18 |
| Phi-3-Vision | 48.82 | 47.72 |
| MiniCPM | 45.90 | 52.09 |
| InternVL | 39.34 | 45.54 |
| LLaVA | 32.97 | 37.16 |
✅ GPT-4.1-mini 表现最佳,图像输入带来 +2.55 分提升;
❌ MiniCPM、InternVL、LLaVA 在图像输入下表现更差,表明其存在符号感知与模态对齐缺陷。
关键发现:感知先于推理
1. 模型失败多源于“读图”而非“思考”
- 仅符号阅读任务(感知探测)中:
- GPT-4.1-mini 准确率 52%
- InternVL 38%,LLaVA 仅 26%
许多错误发生在音符识别阶段,而非后续推理,说明当前 MLLM 对密集符号图像的解析能力仍有限。
2. 图像重建能力退化明显
- GPT-4.1-mini 能在短片段中较好重建 ABC 表示;
- 但在长/复杂段落中性能下降;
- InternVL 和 LLaVA 经常出现音符错位或遗漏。
3. 类别表现不均衡
以 GPT-4.1-mini 为例:
- 最高准确率:表情与演奏(72.12%)
- 最低准确率:节奏与节拍(63.20%)
表明模型对节奏结构、连音、节拍变换等抽象符号处理能力较弱。
数据统计
相关导航


BrowseComp-Plus

imgsys

CodeArena

Alpha Arena

LiveMCPBench

PokerBattle






