腾讯 AI 实验室重磅发布 LeVo 2 (SongGeneration 2) —— 一个旨在打破开源 AI 音乐天花板的基础模型。经过大规模、严格的专家盲测评估,LeVo 2 在音乐性、歌词准确性和可控性三大核心维度上全面突围,不仅超越了所有现有开源基线,更在关键指标上击败了 Suno v5、Mureka v8 等顶级闭源商业模型。这标志着开源 AI 音乐生成正式迈入“商业可用”的新纪元。
- GitHub:https://github.com/tencent-ailab/songgeneration
- 模型:https://huggingface.co/tencent/SongGeneration
- Demo:https://huggingface.co/spaces/tencent/SongGeneration

核心突破:三大维度全面领跑
1. 商业级音乐性:媲美 MiniMax 2.5
在由 20 位行业专业人士 参与的盲测中(涵盖整体质量、旋律、编曲、音质、结构 6 个核心维度,每模型评测 100 首歌曲),LeVo 2 展现了惊人的实力:
- 全面胜出:在所有开源模型中排名第一。
- 比肩闭源:其主观听感质量成功追平甚至部分超越 MiniMax 2.5 等顶尖闭源商业系统。
- 听感自然:生成的歌曲结构完整(主歌 - 副歌 - 桥段),编曲丰富,人声与伴奏融合度极高,不再有明显的“AI 味”。
2. 歌词准确性:碾压 Suno v5 的“杀手锏”
“唱歌吐字不清”、“歌词乱编”一直是 AI 音乐的顽疾。LeVo 2 在此取得了突破性进展:
- 超低音素错误率 (PER):仅为 8.55%。
- 对比竞品:
- Suno v5: 12.4%
- Mureka v8: 9.96%
- 意义:这意味着 LeVo 2 生成的歌声吐字清晰、发音准确,几乎消除了“歌词幻觉”,能够完美演绎多语言歌词(包括中文、英文等复杂语种)。
3. 卓越的可控性:指哪打哪
LeVo 2 支持强大的多模态指令控制:
- 文本描述:精准理解风格、情绪、乐器配置等复杂提示词。
- 音频提示 (Audio Prompt):支持参考音频输入,可延续旋律风格或进行变奏。
- 精细调控:用户可以对生成的音乐进行更细粒度的干预,满足专业创作需求。

双版本发布:质量与速度的完美平衡
为了满足不同场景需求,腾讯同时推出了两个版本的模型:
| 版本 | 参数量 | 特点 | 适用场景 |
|---|---|---|---|
| SongGeneration-v2-large | 4B | 旗舰版。极致音质,完美歌词,复杂编曲。 | 专业音乐制作、高质量 Demo 生成、商业广告配乐。 |
| SongGeneration-v2-Fast | 优化版 | 极速版。已在 Hugging Face Space 上线。1 分钟内生成完整歌曲。 | 快速灵感捕捉、短视频背景音乐、实时互动应用。 |
注:Fast 版本以微小的音乐性损失换取了显著的生成速度提升,是效率优先场景的最佳选择。
权威评估:数据不说谎
本次评估采用了业界最严格的标准:
- 评审团:20 位来自唱片公司、录音棚的专业音乐人及制作人。
- 样本量:每个模型随机生成 100 首完整歌曲。
- 维度:整体质量、旋律优美度、编曲丰富度、音质清晰度、结构完整性。
- 结果:LeVo 2 在多项指标上 statistically significant (统计显著) 地优于其他开源模型,并在歌词清晰度上独占鳌头。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















