Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

731 0

文本转语音（TTS）领域迎来一位重量级开源选手 —— OpenAudio S1-mini。

这是由 Fish Audio 团队 推出的 S1 模型的轻量化版本，参数规模为 5亿（0.5B），基于超过 200万小时 的多语言音频数据训练而成。它不仅支持 14种主流语言，还具备丰富的情感、语调与特殊音效控制能力，是当前开源 TTS 领域中表现最为全面的模型之一。

GitHub：https://github.com/fishaudio/fish-speech
模型：https://huggingface.co/fishaudio/openaudio-s1-mini
Demo：https://huggingface.co/spaces/fishaudio/openaudio-s1-mini

最重要的是：S1-mini 完全免费且可本地部署，非常适合个人开发者、研究人员和内容创作者使用（仅限非商业用途）。

🎯 核心亮点一览

功能	描述
多语言支持	支持英语、中文、日语、德语等 14 种语言
情感丰富	提供 50+ 种情感与语气控制标签
RLHF 强化学习	基于人类反馈优化语音自然度
特殊效果支持	笑声、哭泣、喊叫、耳语等多种音效
开源可用	可本地部署，适用于非商业用途

🔊 支持的语言列表（持续扩展）

目前，OpenAudio S1-mini 支持以下 14 种语言：

英语 (en)
中文 (zh)
日语 (ja)
德语 (de)
法语 (fr)
西班牙语 (es)
韩语 (ko)
阿拉伯语 (ar)
俄语 (ru)
荷兰语 (nl)
意大利语 (it)
波兰语 (pl)
葡萄牙语 (pt)

团队表示，未来将逐步增加对更多语言的支持，进一步提升其全球适用性。

😲 情感与语气控制：让 AI 更有“人味”

S1-mini 最引人注目的功能之一是其强大的情感与语气控制能力，通过特殊的文本标记即可实现语音情绪的变化。以下是部分支持的指令示例：

✅ 基础情感：

(生气) (伤心) (兴奋) (惊讶) (满意) (高兴) 
(害怕) (担心) (沮丧) (紧张) (挫败) (郁闷)
(同情) (尴尬) (厌恶) (感动) (自豪) (放松)
(感激) (自信) (感兴趣) (好奇) (困惑) (快乐)

✅ 高级情感：

(鄙视) (不开心) (焦虑) (歇斯底里) (冷漠) 
(不耐烦) (内疚) (轻蔑) (恐慌) (愤怒) (不情愿)
(热衷) (不赞成) (消极) (否认) (震惊) (严肃)
(讽刺) (安抚) (安慰) (真诚) (冷笑)
(犹豫) (屈服) (痛苦) (尴尬) (觉得有趣)

✅ 语调标记：

(急促的语调) (喊叫) (尖叫) (耳语) (柔和的语调)

✅ 特殊音频效果：

(笑声) (轻笑) (抽泣) (大声哭泣) (叹息) (喘息)
(呻吟) (人群笑声) (背景笑声) (观众笑声)

此外，你还可以通过重复关键词如 “哈,哈,哈” 来引导模型生成特定类型的笑声或其他音效。

当前情感控制主要支持 英语、中文和日语，其他语言将在后续版本中陆续加入。

🧠 模型架构与性能表现

OpenAudio S1 系列包含两个主要变体：

模型	参数量	是否开源	商用许可
S1	40亿	❌（专有）	✅（需授权）
S1-mini	5亿	✅（开源）	❌（仅限非商用）

S1-mini 是 S1 的蒸馏版本，在保持高质量输出的同时大幅降低了计算资源需求，使其更适合本地部署与推理。

📊 自动评估指标（英文测试集）

模型	WER（词错误率）	CER（字符错误率）	扬声器距离（越小越好）
S1	0.008	0.004	0.332
S1-mini	0.011	0.005	0.380

尽管稍逊于旗舰版 S1，但 S1-mini 在开源 TTS 模型中仍表现出色，尤其在情感控制方面远超同类模型。

🛠️ 技术细节与部署方式

训练数据：超过 200 万小时的多语言语音数据
强化学习：采用在线 RLHF（人类反馈强化学习），提升语音自然度
部署支持：提供完整的 Docker 和 API 示例，便于本地运行
许可证：CC-BY-NC-SA-4.0，仅限非商业用途

你可以在 Fish Speech GitHub 获取完整模型与部署指南。

🧩 如何体验？

你可以通过以下几种方式体验 OpenAudio S1-mini：

在线试听：访问 Fish Audio Playground 直接试用
GitHub 项目页：查看模型文档与部署说明：Fish Speech GitHub

文章版权归作者所有，未经允许请勿转载。

阿里通义实验室发布 Qwen3-ASR-Flash：支持多语种、歌声识别与上下文定制的新一代语音识别服务

语音模型 # Qwen3-ASR-Flash

7个月前

01140

SoulX-Singer：42,000 小时训练的零样本歌声合成模型，支持 MIDI 与旋律双模式控制

语音模型 # SoulX-Singer # 歌声合成模型

2个月前

0340

Mistral AI 发布 Voxtral Transcribe 2：开源实时模型 + 高性价比批量转录，全面支持多语言语音应用

语音模型 # Mistral AI # Voxtral Mini Transcribe V2 # Voxtral Realtime

2个月前

0460

Kyutai 开源 Hibiki-Zero：3B 参数实时语音翻译模型，无需词级对齐，支持音色迁移

语音模型 # Hibiki-Zero # 实时语音翻译模型

2个月前

0170

暂无评论

暂无评论...

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

🎯 核心亮点一览

🔊 支持的语言列表（持续扩展）

😲 情感与语气控制：让 AI 更有“人味”

✅ 基础情感：

✅ 高级情感：

✅ 语调标记：

✅ 特殊音频效果：

🧠 模型架构与性能表现

📊 自动评估指标（英文测试集）

🛠️ 技术细节与部署方式

🧩 如何体验？

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

Vui：轻量级、可本地运行的开源对话语音模型

相关文章

阿里通义实验室发布 Qwen3-ASR-Flash：支持多语种、歌声识别与上下文定制的新一代语音识别服务

SoulX-Singer：42,000 小时训练的零样本歌声合成模型，支持 MIDI 与旋律双模式控制

Mistral AI 发布 Voxtral Transcribe 2：开源实时模型 + 高性价比批量转录，全面支持多语言语音应用

Kyutai 开源 Hibiki-Zero：3B 参数实时语音翻译模型，无需词级对齐，支持音色迁移

暂无评论

文章

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

新阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

ComfyUI 动态显存革命：告别显存不足，让 56GB 模型在 32GB 显存上丝滑运行

Cursor 推出 Composer 模型：让 AI 学会“自我总结”，轻松搞定长周期编程

LMArena 最新排名出炉！阿里千问杀入全球前五，Qwen3.5-Max-Preview 力压豆包、Kimi 成国产最强

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

抓虾吧

Jellyfish AI短剧工厂

Fish Audio 发布 OpenAudio S1-mini：支持 14 种语言、50+ 情感语气的开源 TTS 模型

🎯 核心亮点一览

🔊 支持的语言列表（持续扩展）

😲 情感与语气控制：让 AI 更有“人味”

✅ 基础情感：

✅ 高级情感：

✅ 语调标记：

✅ 特殊音频效果：

🧠 模型架构与性能表现

📊 自动评估指标（英文测试集）

🛠️ 技术细节与部署方式

🧩 如何体验？

OpenAudio S1：Fish Audio 推出媲美语音演员的尖端文本转语音模型

Vui：轻量级、可本地运行的开源对话语音模型

相关文章

文章

标签云

网址

ITELLOU

OpenMAIC

S.H.I.T

Alaya Code

抓虾吧

Jellyfish AI短剧工厂