腾讯开源SongGeneration 2:歌词准确率超越 Suno v5,首个真正达到“商业级”的开源音乐大模型

语音模型14小时前发布 小马良
12 0

腾讯 AI 实验室重磅发布 LeVo 2 (SongGeneration 2) —— 一个旨在打破开源 AI 音乐天花板的基础模型。经过大规模、严格的专家盲测评估,LeVo 2 在音乐性、歌词准确性和可控性三大核心维度上全面突围,不仅超越了所有现有开源基线,更在关键指标上击败了 Suno v5、Mureka v8 等顶级闭源商业模型。这标志着开源 AI 音乐生成正式迈入“商业可用”的新纪元。

  • GitHub:https://github.com/tencent-ailab/songgeneration
  • 模型:https://huggingface.co/tencent/SongGeneration
  • Demo:https://huggingface.co/spaces/tencent/SongGeneration
腾讯开源SongGeneration 2:歌词准确率超越 Suno v5,首个真正达到“商业级”的开源音乐大模型

清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

核心突破:三大维度全面领跑

1. 商业级音乐性:媲美 MiniMax 2.5

在由 20 位行业专业人士 参与的盲测中(涵盖整体质量、旋律、编曲、音质、结构 6 个核心维度,每模型评测 100 首歌曲),LeVo 2 展现了惊人的实力:

  • 全面胜出:在所有开源模型中排名第一。
  • 比肩闭源:其主观听感质量成功追平甚至部分超越 MiniMax 2.5 等顶尖闭源商业系统。
  • 听感自然:生成的歌曲结构完整(主歌 - 副歌 - 桥段),编曲丰富,人声与伴奏融合度极高,不再有明显的“AI 味”。

2. 歌词准确性:碾压 Suno v5 的“杀手锏”

“唱歌吐字不清”、“歌词乱编”一直是 AI 音乐的顽疾。LeVo 2 在此取得了突破性进展:

  • 超低音素错误率 (PER):仅为 8.55%
  • 对比竞品
    • Suno v5: 12.4%
    • Mureka v8: 9.96%
  • 意义:这意味着 LeVo 2 生成的歌声吐字清晰、发音准确,几乎消除了“歌词幻觉”,能够完美演绎多语言歌词(包括中文、英文等复杂语种)。
3. 卓越的可控性:指哪打哪

LeVo 2 支持强大的多模态指令控制:

  • 文本描述:精准理解风格、情绪、乐器配置等复杂提示词。
  • 音频提示 (Audio Prompt):支持参考音频输入,可延续旋律风格或进行变奏。
  • 精细调控:用户可以对生成的音乐进行更细粒度的干预,满足专业创作需求。
腾讯开源SongGeneration 2:歌词准确率超越 Suno v5,首个真正达到“商业级”的开源音乐大模型

双版本发布:质量与速度的完美平衡

为了满足不同场景需求,腾讯同时推出了两个版本的模型:

版本参数量特点适用场景
SongGeneration-v2-large4B旗舰版。极致音质,完美歌词,复杂编曲。专业音乐制作、高质量 Demo 生成、商业广告配乐。
SongGeneration-v2-Fast优化版极速版。已在 Hugging Face Space 上线。1 分钟内生成完整歌曲。快速灵感捕捉、短视频背景音乐、实时互动应用。

注:Fast 版本以微小的音乐性损失换取了显著的生成速度提升,是效率优先场景的最佳选择。

权威评估:数据不说谎

本次评估采用了业界最严格的标准:

  • 评审团:20 位来自唱片公司、录音棚的专业音乐人及制作人。
  • 样本量:每个模型随机生成 100 首完整歌曲。
  • 维度:整体质量、旋律优美度、编曲丰富度、音质清晰度、结构完整性。
  • 结果:LeVo 2 在多项指标上 statistically significant (统计显著) 地优于其他开源模型,并在歌词清晰度上独占鳌头。
© 版权声明

相关文章

暂无评论

none
暂无评论...