腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

94 0

腾讯 AI 实验室重磅发布 LeVo 2 (SongGeneration 2) —— 一个旨在打破开源 AI 音乐天花板的基础模型。经过大规模、严格的专家盲测评估，LeVo 2 在音乐性、歌词准确性和可控性三大核心维度上全面突围，不仅超越了所有现有开源基线，更在关键指标上击败了 Suno v5、Mureka v8 等顶级闭源商业模型。这标志着开源 AI 音乐生成正式迈入“商业可用”的新纪元。

GitHub：https://github.com/tencent-ailab/songgeneration
模型：https://huggingface.co/tencent/SongGeneration
Demo：https://huggingface.co/spaces/tencent/SongGeneration

腾讯开源SongGeneration 2：歌词准确率超越 Suno v5，首个真正达到“商业级”的开源音乐大模型

清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

核心突破：三大维度全面领跑

1. 商业级音乐性：媲美 MiniMax 2.5

在由 20 位行业专业人士 参与的盲测中（涵盖整体质量、旋律、编曲、音质、结构 6 个核心维度，每模型评测 100 首歌曲），LeVo 2 展现了惊人的实力：

全面胜出：在所有开源模型中排名第一。
比肩闭源：其主观听感质量成功追平甚至部分超越 MiniMax 2.5 等顶尖闭源商业系统。
听感自然：生成的歌曲结构完整（主歌 - 副歌 - 桥段），编曲丰富，人声与伴奏融合度极高，不再有明显的“AI 味”。

2. 歌词准确性：碾压 Suno v5 的“杀手锏”

“唱歌吐字不清”、“歌词乱编”一直是 AI 音乐的顽疾。LeVo 2 在此取得了突破性进展：

超低音素错误率 (PER)：仅为 8.55%。
对比竞品：
- Suno v5: 12.4%
- Mureka v8: 9.96%
意义：这意味着 LeVo 2 生成的歌声吐字清晰、发音准确，几乎消除了“歌词幻觉”，能够完美演绎多语言歌词（包括中文、英文等复杂语种）。

3. 卓越的可控性：指哪打哪

LeVo 2 支持强大的多模态指令控制：

文本描述：精准理解风格、情绪、乐器配置等复杂提示词。
音频提示 (Audio Prompt)：支持参考音频输入，可延续旋律风格或进行变奏。
精细调控：用户可以对生成的音乐进行更细粒度的干预，满足专业创作需求。

双版本发布：质量与速度的完美平衡

为了满足不同场景需求，腾讯同时推出了两个版本的模型：

版本	参数量	特点	适用场景
SongGeneration-v2-large	4B	旗舰版。极致音质，完美歌词，复杂编曲。	专业音乐制作、高质量 Demo 生成、商业广告配乐。
SongGeneration-v2-Fast	优化版	极速版。已在 Hugging Face Space 上线。1 分钟内生成完整歌曲。	快速灵感捕捉、短视频背景音乐、实时互动应用。