OpenAudio S1:Fish Audio 推出媲美语音演员的尖端文本转语音模型

语音模型6个月前发布 小马良
278 0

Fish Audio 重磅推出 OpenAudio S1 —— 一款在表现力、自然度和可控性方面达到新高度的文本转语音(TTS)模型。作为目前全球最先进的开源 TTS 模型之一,S1 在超过 200万小时 的音频数据集上训练,并采用 RLHF(GRPO)等先进训练方法,真正实现了媲美专业配音演员的语音合成能力。

核心亮点概览

  •  40亿参数大模型,基于 Qwen3 架构构建
  •  多模态原生支持:TTS / STT / TextQA / AudioQA(当前开放 TTS)
  •  情感识别 + 音调控制:注入丰富情绪和语境表达
  •  低至 0.008 WER 和 0.004 CER,超越主流模型
  •  多语言支持:涵盖英语、汉语、日语、法语等 13 种语言
  •  极致性价比:仅需 0.8 美元/小时使用成本

技术突破:让 AI 合成语音“活”起来

传统 TTS 模型通常依赖语义编码器生成中间表示,再通过声学模型合成语音。这种两阶段方式容易导致:

  • 词语丢失或错误发音(高 WER/CER)
  • 情感缺失、语调单一
  • 声音失真或不稳定

而 OpenAudio S1 采用全新架构设计,结合以下关键技术实现突破:

技术要点描述
超大规模训练数据超过 200 万小时音频,覆盖广泛语种与风格
RLHF + GRPO 训练机制通过在线强化学习提升生成稳定性与指令遵循能力
自研奖励模型引导模型输出高质量、富有表现力的语音
一体化建模架构直接建模语义与声学信息,避免信息丢失

最终结果是:

  • WER(词错误率):0.008
  • CER(字符错误率):0.004
  • HuggingFace TTS-Arena-V2 主观评估排名第一

表现力革命:像人类一样说话

OpenAudio S1 的最大特色在于其对语音情感与细节的精准还原。借助我们自研的语音标注系统(即将开源),我们为超过 10 万小时音频添加了情感、语调、人物特征等标签,从而训练模型理解并复现复杂语音表达。

✅ 支持的情感标记示例:

  • (愤怒)、(悲伤)、(兴奋)、(惊讶)
  • (讽刺)、(欢乐)、(同理心)

✅ 支持的语气与风格标记:

  • (匆忙语气)、(喊叫)、(尖叫)、(低语)、(柔和语气)

✅ 支持的拟声词与事件插入:

  • (大笑)哈哈哈
  • (轻笑)嗯嗯
  • (啜泣)、(叹息)、(喘息)、(人群笑声)

这些标记不仅提升了语音的真实感,也让开发者能以极高的粒度控制输出效果。

应用场景广泛,满足多样化需求

得益于其卓越的表现力与多语言支持,OpenAudio S1 可广泛应用于以下领域:

场景示例
有声书制作自动生成富有情感的朗读音频
游戏角色配音为不同角色赋予独特声音与情绪
客服与虚拟助手提供更自然、更人性化的交互体验
教育与培训创造更具沉浸感的教学内容
视频解说与播客快速生成高质量语音素材

多语言支持,全球化触达

OpenAudio S1 支持以下 13 种语言,适用于全球创作者与开发者:

英语、汉语、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语、葡萄牙语

模型变体:兼顾性能与资源限制

根据不同的部署需求,OpenAudio S1 提供两个主要版本:

版本参数规模特点
S140亿全功能旗舰模型,表现力最强
S1-mini5亿轻量级优化版,适合边缘设备与低成本部署

两种模型均基于 Qwen3 架构,并采用类似 Descript Audio Codec 的解码架构,从零开始训练,并通过 Transformer 增强文本建模能力。

成本友好:AI语音技术人人可用

尽管当前 TTS 模型的运行成本普遍较高,但我们致力于打破这一门槛。OpenAudio S1 是首款定价仅为:

每百万字约 15 美元(约合 0.8 美元/小时) 的高端 TTS 模型。

未来我们将持续优化推理架构与训练流程,进一步降低成本,让更多开发者和企业都能负担得起高品质的语音合成服务。

开始使用 OpenAudio S1

欢迎访问 Fish Audio Playground 亲身体验 OpenAudio S1 的强大能力。

我们也计划陆续开源更多相关模型与工具,包括:

  • 自研语音标注模型(STT)
  • 多模态接口支持
  • 更丰富的控制标记体系

关于 OpenAudio 与 Fish Audio

OpenAudio 是 Hanabi AI Inc. 下属的研究实验室,专注于音频合成领域的前沿探索。Fish Audio 是我们面向社区的产品平台,致力于将这些创新成果快速转化为实用工具,赋能全球开发者与创作者。

© 版权声明

相关文章

暂无评论

none
暂无评论...