Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

语音模型10个月前发布小马良

163 0

Kyutai 近日发布了一款名为 Unmute 的全新语音 AI 系统。与以往语音模型不同，Unmute 并不试图替代现有的语言模型，而是作为一个高度模块化的“插件”，可以无缝接入任意文本大语言模型，赋予其完整的语音交互能力。

这意味着，无论你正在使用哪种文本模型，只要接入 Unmute，它就能立刻“开口说话”。

地址：https://unmute.sh

核心功能一览

1. 智能判断语义完成

Unmute 能够判断你是否已经说完一句话，而不是简单地通过静音检测来决定是否打断。这种基于语义的语音活动检测（VAD），让它在对话中更自然、更贴近真人交流。

2. 支持随时打断

就像面对面交谈一样，你可以在它说话时随时插话，而系统会立即停止当前回应并转向你的新输入，实现真正的全双工语音交互体验。

3. 10秒语音样本即可定制声音

只需提供一段 10 秒钟的语音样本，Unmute 就能克隆出对应的声音特征，生成个性化的语音输出。这为个性化语音助手、角色配音等场景提供了极大便利。

4. 流式文本合成，降低响应延迟

Unmute 支持在文本尚未完全生成时就开始发声。也就是说，当语言模型还在逐步输出回答时，语音系统就可以提前开始朗读，从而显著缩短整体响应时间。

技术架构：模块化设计是关键

Unmute 的核心优势在于它的模块化结构：

语音转文本（STT）模块：支持流式输入，具备高精度语义 VAD，可识别说话人是否处于停顿或结束状态。
文本转语音（TTS）模块：基于 10 秒语音样本训练，支持个性化语音生成，并同样支持流式输出。
即插即用接口：无论是本地部署还是云端服务，Unmute 都可以通过标准接口快速集成到各类语言模型中。

这意味着开发者可以根据需要选择只使用语音识别部分、语音合成部分，或是两者结合使用，灵活性极高。

Moshi 与 Unmute 的区别

此前 Kyutai 曾推出过另一款语音模型 Moshi，它是首个专为实时音频交互设计的 AI 模型，在自然度和延迟控制方面表现出色。但 Moshi 是一个封闭的端到端系统，不具备扩展性。（相关：Kyutai发布首个开源实时语音模型MoshiVis，开启视觉与语音交互新时代）

相比之下，Unmute 更像是一个“桥梁”，它并不取代现有的语言模型，而是将其能力延伸至语音领域，使得像函数调用、上下文学习、复杂推理等功能也能在语音交互中得到体现。

开源计划

Kyutai 表示，Unmute 的所有技术将在未来几周内全部开源，包括 STT 和 TTS 模块。同时，他们也将以可控方式开放语音克隆模型的访问权限。

团队相信，未来的交互方式将越来越依赖于自然、双向的语音沟通。Unmute 的目标不仅是让机器“能说话”，更是让它们“会说话”——在合适的时间倾听，在合适的时机回应。

文章版权归作者所有，未经允许请勿转载。

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

语音模型 # Kyutai STT # 语音识别模型

9个月前

03540

阿里通义实验室发布 Qwen3-ASR-Flash：支持多语种、歌声识别与上下文定制的新一代语音识别服务

语音模型 # Qwen3-ASR-Flash

6个月前

01070

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

语音模型 # B站 # IndexTTS2

6个月前

05550

ElevenLabs 推出 Scribe v2：支持 90+ 语言的高精度批量转录模型

语音模型 # ElevenLabs # Scribe v2

2个月前

01770

暂无评论

暂无评论...

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

核心功能一览

1. 智能判断语义完成

2. 支持随时打断

3. 10秒语音样本即可定制声音

4. 流式文本合成，降低响应延迟

技术架构：模块化设计是关键

Moshi 与 Unmute 的区别

开源计划

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

相关文章

Kyutai STT：低延迟、高吞吐的流式语音识别模型，专为实时交互优化

阿里通义实验室发布 Qwen3-ASR-Flash：支持多语种、歌声识别与上下文定制的新一代语音识别服务

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

ElevenLabs 推出 Scribe v2：支持 90+ 语言的高精度批量转录模型

暂无评论

文章

Kimi × OpenClaw 最新配置指南：原生支持Kimi K2.5，三步快速搭建智能体工作流

拒绝无效等待！在 Ollama 中灵活开关 Qwen3.5 思考模式，简单问题秒回，复杂问题深究

Anthropic 为“退役”的 Claude 3 Opus 开设 Substack 专栏：全球首个 AI 博客实验，每周发布“退休思考”

ComfyUI 原生支持 LTX-2.3：开源音视频生成的画质新标杆

Jina AI推出文本嵌入模型Jina Embeddings v4：多模态多语言检索的通用嵌入模型

Lightricks 双重重磅发布：LTX-2.3 模型进化与 LTX Desktop 开源编辑器，本地视频生成时代正式来临

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

核心功能一览

1. 智能判断语义完成

2. 支持随时打断

3. 10秒语音样本即可定制声音

4. 流式文本合成，降低响应延迟

技术架构：模块化设计是关键

Moshi 与 Unmute 的区别

开源计划

新型多模态音频生成框架AudioX：通过统一的模型架构实现从各种输入模态（如文本、视频、图像、音频等）生成高质量的音频和音乐

Resemble AI推出首个情感可控的开源TTS模型Chatterbox

相关文章

文章

标签云

网址

S.H.I.T

新QClaw

CoPaw

waoo

新WorkBuddy

新ArkClaw