Fish Audio 开源 Fish Audio S2 Pro:支持自然语言指令的精细化 TTS 模型,单卡 H200 实时因子低至 0.195

语音模型12小时前更新 小马良
4 0

在文本转语音(TTS)领域,如何在保持高保真音质的同时,实现对韵律、情感和副语言特征(如笑声、呼吸声)的精细化控制,一直是行业难点。今日,Fish Audio 正式开源 S2 模型及其完整的生产级推理栈。

Fish Audio 开源 Fish Audio S2 Pro:支持自然语言指令的精细化 TTS 模型,单卡 H200 实时因子低至 0.195

S2 不仅是一个模型权重的释放,更是一套包含数据清洗、强化学习对齐(RLHF)及基于 SGLang 的流式推理引擎的完整系统。它在 EmergentTTS-Eval 基准测试中以 81.88% 的综合胜率超越包括 Google 和 OpenAI 在内的闭源系统,位居榜首。目前已释出Fish Audio S2 Pro版本,后续应该会有Mini版本。

  • GitHub:https://github.com/fishaudio/fish-speech
  • 模型:https://huggingface.co/fishaudio/s2-pro

核心突破:自然语言驱动的精细化行内控制

传统的 TTS 模型通常依赖有限的预定义标签或全局风格设置,难以在句子级别进行动态调整。S2 引入了革命性的自由形式自然语言指令机制。

用户无需记忆复杂的标签代码,只需在文本中直接嵌入类似 [whisper in small voice](小声低语)、[professional broadcast tone](专业播音腔)或 [laughing](大笑)的自然语言描述。模型能够理解这些指令,并在单词或短语级别实时调整发音方式。

  • 开放式控制:支持超过 15,000 种独特的语义标签,涵盖情绪(愤怒、惊喜)、动作(清嗓子、吸气)、语调(强调、耳语)等。
  • 行内嵌入:指令直接写在文本中,例如:“你好 [whisper] 这是一个秘密 [normal] 请大声朗读 [shouting] 开始!”
  • 多语言支持:原生支持 80+ 种语言,包括中文、英语、日语(第一梯队),以及韩语、西班牙语、阿拉伯语等主流语言,甚至涵盖威尔士语、巴斯克语等小语种。
Fish Audio 开源 Fish Audio S2 Pro:支持自然语言指令的精细化 TTS 模型,单卡 H200 实时因子低至 0.195

架构创新:双自回归(Dual-AR)与 LLM 生态复用

S2 的成功很大程度上归功于其巧妙的架构设计,使其能够直接复用大语言模型(LLM)成熟的推理优化生态。

1. 双自回归架构(Dual-AR)

为了解决音频序列过长导致的计算爆炸问题,S2 采用了非对称的双自回归设计:

  • 慢速自回归(Slow AR):拥有 40 亿参数,沿时间轴操作,负责预测主要的语义码本(Semantic Codebook),把握整体韵律和内容。
  • 快速自回归(Fast AR):拥有 4 亿参数,在每个时间步并行生成剩余的 9 个残差码本,重建细粒度的声学细节。

这种设计在保证音频高保真度的同时,大幅降低了推理延迟。更重要的是,由于该架构在结构上与标准的 Decoder-only Transformer 同构,S2 能够无缝继承 SGLang 框架的所有原生优化特性。

2. 生产级流式推理

得益于 SGLang 的支持,S2 实现了企业级的推理性能:

  • 连续批处理(Continuous Batching):动态调度请求,最大化 GPU 利用率。
  • 分页 KV 缓存(Paged KV Cache):高效管理显存,支持长上下文。
  • RadixAttention 前缀缓存:针对语音克隆场景,参考音频的 KV 状态可被自动缓存。在跨请求复用同一声音时,前缀缓存命中率高达 86.4%,使得预填充开销几乎忽略不计。

实测性能(单张 NVIDIA H200 GPU):

  • 实时因子(RTF):低至 0.195(即生成 1 秒音频仅需 0.195 秒计算时间)。
  • 首包延迟:约 100 毫秒,实现近乎实时的交互体验。
  • 吞吐量:每秒可生成 3000+ 声学词元,且在保持 RTF < 0.5 的高负载下依然稳定。

训练策略:统一的数据与奖励流水线

S2 在架构层面解决了一个长期存在的痛点:预训练数据与后训练目标之间的分布不匹配

许多 TTS 系统分别训练数据过滤模型和奖励模型,导致目标不一致。S2 采用“统一配方”:

  1. 数据清洗阶段:使用语音质量模型和富转录 ASR 模型(基于 Qwen3-Omni 持续预训练)对 1000 万小时、80+ 语言的原始数据进行评分和标注,生成带有副语言注释的增强字幕。
  2. 强化学习阶段:直接复用上述模型作为奖励模型(Reward Model),通过群体相对策略优化(GRPO)对模型进行对齐。

这种设计确保了模型从数据摄入到最终优化的目标高度一致,显著提升了指令遵循能力和音质表现。

性能基准:全面领先开源与闭源模型

在多项权威基准测试中,S2 展现了统治级的表现:

测试项目指标Fish Audio S2竞品对比 (Seed-TTS / MiniMax)
Seed-TTS Eval (WER)中文0.54% (最佳)1.12% / 0.99%
Seed-TTS Eval (WER)英文0.99% (最佳)2.25% / 1.90%
音频图灵测试带指令后验均值0.5150.417 / 0.387
EmergentTTS-Eval综合胜率81.88%-
Fish Instruction Benchmark指令遵循率 (TAR)93.3%-

特别是在副语言控制(91.61% 胜率)和复杂语法结构处理上,S2 表现出了极强的鲁棒性,证明了其在处理真实世界复杂对话场景中的能力。

开源生态与快速上手

此次开源不仅仅是模型权重,Fish Audio 提供了完整的工具链:

  • 模型权重:包含 Slow AR 和 Fast AR 全部参数。
  • 微调代码:支持用户基于自有数据进行定制化训练。
  • 推理引擎:基于 SGLang 构建的生产级流式推理服务。
  • 交互式演示:可在 Hugging Face Space 或官方 Demo 页面直接体验。

获取方式:
开发者可通过 Fish Audio 的 GitHub 仓库、Hugging Face 模型页以及 ModelScope 获取相关资源。

# 示例:使用 SGLang 启动 S2 服务 (伪代码示意)
python -m sglang.launch_server --model-path fish-audio/s2-pro --port 30000

Fish Audio S2 的发布,标志着开源 TTS 模型在可控性工程化落地两个维度上迈上了新台阶。通过自然语言指令实现的精细化控制,让语音合成不再是机械的朗读,而是充满情感的表达;而基于 Dual-AR 架构与 SGLang 的深度集成,则让这一高性能模型能够轻松部署于生产环境。

对于需要构建虚拟人、有声书、游戏 NPC 或智能客服的企业与开发者而言,S2 提供了一个目前看来最具竞争力的开源选择。

© 版权声明

相关文章

暂无评论

none
暂无评论...