
AI Arena
为了全面评估 Qwen-Image 的通用图像生成能力,并将其与最先进的闭源 API 进行客观比较,阿里推出了 AI Arena,一个基于 Elo 评分系统的开放基准测试平台。AI Arena 提供了一个公平、透明和动态的模型评估环境。
想看看不同AI音乐模型谁更强?
现在,你只需要输入一句提示词,就能让两个AI现场“PK”,生成两首风格相同的音乐,由你来决定哪个更好听。
这不是商业产品,而是一个开放、免费、可参与的学术项目——Music Arena(音乐竞技场)。
由卡内基梅隆大学生成创意实验室(G-CLef)开发,Music Arena 的目标很明确:建立一个公正、透明的评估体系,推动AI音乐生成技术的发展。

“一首90年代复古电子舞曲,节奏轻快,带合成器主旋律”
或
“抒情民谣,吉他伴奏,讲述一场夏日告别”

你的每一次选择,都会被记录进公开排行榜,成为衡量AI音乐能力的真实数据。
尽管AI生成音乐发展迅速,但一个问题始终存在:我们如何客观判断哪个模型更好?
目前大多数模型宣传依赖内部测试或精选样例,缺乏统一标准和真实用户反馈。而 Music Arena 提供了一个去中心化的解决方案:
它不只为“听个新鲜”,更是为整个AI音乐研究领域构建一个可信赖的偏好数据源。
平台目前集成多款主流AI音乐生成模型,每次对比将随机选取其中两个进行“对战”。以下是当前支持的模型列表:
| 显示名称 | 所属机构 | 是否开源 | 支持歌词 | 特点 |
|---|---|---|---|---|
| MusicGen Small | Meta | 开放 | ❌ | 300M参数,小型语言模型,适合快速生成 |
| Stable Audio Open | Stability AI | 开放 | ❌ | 1.3B参数潜在扩散模型,音质较高 |
| Stable Audio Open Small | Stability AI | 开放 | ❌ | 341M小型版,生成更快 |
| Magenta RealTime (Large) | Google DeepMind | 开放 | ❌ | 800M流式模型,支持实时生成 |
| ACE-Step | ACE Studio | 开放 | ✅ | 3.5B大模型,歌词由 GPT-4o 生成 |
| Riffusion FUZZ 1.0 / 1.1 | Riffusion | 专有 | ✅ | 扩散Transformer架构,支持歌词编辑 |
| Preview Ocelot / Jerboa | Hidden | 专有 | ✅ | 即将发布的新模型预览版本 |
注:“开放”指模型权重或API可访问;“专有”表示仅通过平台使用。
为了保持透明,团队也公开了平台现阶段的局限性:
这些信息有助于用户理性理解生成结果,也提醒研究者关注实际可用性问题。







