OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

487 0

Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音（TTS）模型。作为目前全球最先进的开源 TTS 模型之一，S1 在超过 200万小时 的音频数据集上训练，并采用 RLHF（GRPO）等先进训练方法，真正实现了媲美专业配音演员的语音合成能力。

核心亮点概览

✅ 40亿参数大模型，基于 Qwen3 架构构建
✅ 多模态原生支持：TTS / STT / TextQA / AudioQA（当前开放 TTS）
✅ 情感识别 + 音调控制：注入丰富情绪和语境表达
✅ 低至 0.008 WER 和 0.004 CER，超越主流模型
✅ 多语言支持：涵盖英语、汉语、日语、法语等 13 种语言
✅ 极致性价比：仅需 0.8 美元/小时使用成本

技术突破：让 AI 合成语音“活”起来

传统 TTS 模型通常依赖语义编码器生成中间表示，再通过声学模型合成语音。这种两阶段方式容易导致：

词语丢失或错误发音（高 WER/CER）
情感缺失、语调单一
声音失真或不稳定

而 OpenAudio S1 采用全新架构设计，结合以下关键技术实现突破：

技术要点	描述
超大规模训练数据	超过 200 万小时音频，覆盖广泛语种与风格
RLHF + GRPO 训练机制	通过在线强化学习提升生成稳定性与指令遵循能力
自研奖励模型	引导模型输出高质量、富有表现力的语音
一体化建模架构	直接建模语义与声学信息，避免信息丢失

最终结果是：

WER（词错误率）：0.008
CER（字符错误率）：0.004
HuggingFace TTS-Arena-V2 主观评估排名第一

表现力革命：像人类一样说话

OpenAudio S1 的最大特色在于其对语音情感与细节的精准还原。借助我们自研的语音标注系统（即将开源），我们为超过 10 万小时音频添加了情感、语调、人物特征等标签，从而训练模型理解并复现复杂语音表达。

✅ 支持的情感标记示例：

（愤怒）、（悲伤）、（兴奋）、（惊讶）
（讽刺）、（欢乐）、（同理心）

✅ 支持的语气与风格标记：

（匆忙语气）、（喊叫）、（尖叫）、（低语）、（柔和语气）

✅ 支持的拟声词与事件插入：

（大笑）哈哈哈
（轻笑）嗯嗯
（啜泣）、（叹息）、（喘息）、（人群笑声）

这些标记不仅提升了语音的真实感，也让开发者能以极高的粒度控制输出效果。

应用场景广泛，满足多样化需求

得益于其卓越的表现力与多语言支持，OpenAudio S1 可广泛应用于以下领域：

场景	示例
有声书制作	自动生成富有情感的朗读音频
游戏角色配音	为不同角色赋予独特声音与情绪
客服与虚拟助手	提供更自然、更人性化的交互体验
教育与培训	创造更具沉浸感的教学内容
视频解说与播客	快速生成高质量语音素材