Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音(TTS)模型。作为目前全球最先进的开源 TTS 模型之一,S1 在超过 200万小时 的音频数据集上训练,并采用 RLHF(GRPO)等先进训练方法,真正实现了媲美专业配音演员的语音合成能力。
核心亮点概览
- ✅ 40亿参数大模型,基于 Qwen3 架构构建
- ✅ 多模态原生支持:TTS / STT / TextQA / AudioQA(当前开放 TTS)
- ✅ 情感识别 + 音调控制:注入丰富情绪和语境表达
- ✅ 低至 0.008 WER 和 0.004 CER,超越主流模型
- ✅ 多语言支持:涵盖英语、汉语、日语、法语等 13 种语言
- ✅ 极致性价比:仅需 0.8 美元/小时使用成本

技术突破:让 AI 合成语音“活”起来
传统 TTS 模型通常依赖语义编码器生成中间表示,再通过声学模型合成语音。这种两阶段方式容易导致:
- 词语丢失或错误发音(高 WER/CER)
- 情感缺失、语调单一
- 声音失真或不稳定

而 OpenAudio S1 采用全新架构设计,结合以下关键技术实现突破:
| 技术要点 | 描述 |
|---|---|
| 超大规模训练数据 | 超过 200 万小时音频,覆盖广泛语种与风格 |
| RLHF + GRPO 训练机制 | 通过在线强化学习提升生成稳定性与指令遵循能力 |
| 自研奖励模型 | 引导模型输出高质量、富有表现力的语音 |
| 一体化建模架构 | 直接建模语义与声学信息,避免信息丢失 |
最终结果是:
- WER(词错误率):0.008
- CER(字符错误率):0.004
- HuggingFace TTS-Arena-V2 主观评估排名第一
表现力革命:像人类一样说话
OpenAudio S1 的最大特色在于其对语音情感与细节的精准还原。借助我们自研的语音标注系统(即将开源),我们为超过 10 万小时音频添加了情感、语调、人物特征等标签,从而训练模型理解并复现复杂语音表达。
✅ 支持的情感标记示例:
- (愤怒)、(悲伤)、(兴奋)、(惊讶)
- (讽刺)、(欢乐)、(同理心)
✅ 支持的语气与风格标记:
- (匆忙语气)、(喊叫)、(尖叫)、(低语)、(柔和语气)
✅ 支持的拟声词与事件插入:
- (大笑)哈哈哈
- (轻笑)嗯嗯
- (啜泣)、(叹息)、(喘息)、(人群笑声)
这些标记不仅提升了语音的真实感,也让开发者能以极高的粒度控制输出效果。
应用场景广泛,满足多样化需求
得益于其卓越的表现力与多语言支持,OpenAudio S1 可广泛应用于以下领域:
| 场景 | 示例 |
|---|---|
| 有声书制作 | 自动生成富有情感的朗读音频 |
| 游戏角色配音 | 为不同角色赋予独特声音与情绪 |
| 客服与虚拟助手 | 提供更自然、更人性化的交互体验 |
| 教育与培训 | 创造更具沉浸感的教学内容 |
| 视频解说与播客 | 快速生成高质量语音素材 |
多语言支持,全球化触达
OpenAudio S1 支持以下 13 种语言,适用于全球创作者与开发者:
英语、汉语、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语
模型变体:兼顾性能与资源限制
根据不同的部署需求,OpenAudio S1 提供两个主要版本:
| 版本 | 参数规模 | 特点 |
|---|---|---|
| S1 | 40亿 | 全功能旗舰模型,表现力最强 |
| S1-mini | 5亿 | 轻量级优化版,适合边缘设备与低成本部署 |
两种模型均基于 Qwen3 架构,并采用类似 Descript Audio Codec 的解码架构,从零开始训练,并通过 Transformer 增强文本建模能力。
成本友好:AI语音技术人人可用
尽管当前 TTS 模型的运行成本普遍较高,但我们致力于打破这一门槛。OpenAudio S1 是首款定价仅为:
每百万字约 15 美元(约合 0.8 美元/小时) 的高端 TTS 模型。
未来我们将持续优化推理架构与训练流程,进一步降低成本,让更多开发者和企业都能负担得起高品质的语音合成服务。

开始使用 OpenAudio S1
欢迎访问 Fish Audio Playground 亲身体验 OpenAudio S1 的强大能力。
我们也计划陆续开源更多相关模型与工具,包括:
- 自研语音标注模型(STT)
- 多模态接口支持
- 更丰富的控制标记体系
关于 OpenAudio 与 Fish Audio
OpenAudio 是 Hanabi AI Inc. 下属的研究实验室,专注于音频合成领域的前沿探索。Fish Audio 是我们面向社区的产品平台,致力于将这些创新成果快速转化为实用工具,赋能全球开发者与创作者。















