小红书开源 FireRedChat：一个完整、可控的全双工语音交互系统

语音模型6个月前发布小马良

411 0

在智能助手和客户服务场景中，用户希望与AI的对话像人与人交流一样自然——可以随时插话、打断、继续，而系统能即时响应。要实现这种体验，需要真正的全双工语音交互能力。

然而，现有方案存在明显短板：

端到端模型难以调试和控制；
模块化系统多依赖闭源组件或外部API，限制了定制与优化空间。

为解决这一问题，小红书 FireRed 项目组提出并开源了 FireRedChat——一个完整、实用、完全自托管的全双工语音交互系统。它不仅支持用户与AI代理实时并发说话和精准插话，还通过模块化设计实现了高可控性、低延迟和企业级隐私保障。

项目主页：https://fireredteam.github.io/demos/firered_chat
GitHub：https://github.com/FireRedTeam/FireRedChat
Demo：https://firered-chat.xiaohongshu.com

小红书开源 FireRedChat：一个完整、可控的全双工语音交互系统

核心目标：让语音交互更自然、更可靠

FireRedChat 的设计目标是构建一个鲁棒、低延迟、可定制的语音 AI 基础设施，适用于以下场景：

智能客服中的多轮打断式问答；
实时语音助手（如车载、家居）；
多模态人机协作系统；
需要本地化部署、零数据外泄的企业应用。

其核心优势在于：不依赖任何第三方语音服务，所有模块均可私有化部署，确保数据安全与系统可控。

系统架构：模块化设计，灵活可扩展

FireRedChat 采用模块化架构，主要由以下几个组件构成：

组件	功能说明
LiveKit RTC Server	实时音视频通信核心，负责双向流传输
Agents (AI-Agent Bot Server)	主控逻辑层，协调 ASR、LLM、TTS 和对话管理
Agents-Playground (WebUI)	可视化交互界面，支持在线测试与调试
Redis Server	分布式状态存储，支持多节点协同
ASR Server	自动语音识别，集成标点恢复模型
TTS Server	文本转语音服务，支持 G2P 与文本规范化
LLM Server	用户自行部署的大模型服务（如 Ollama、vLLM、Dify）

🔧 提示：FireRedChat 不内置 LLM，开发者需自行接入本地或私有化部署的模型服务，真正实现“端到端可控”。

小红书开源 FireRedChat：一个完整、可控的全双工语音交互系统

关键技术创新

1. 全双工控制器：精准控制插话与响应时机

传统半双工系统必须等待用户说完才能回应，体验生硬。FireRedChat 引入了一个统一的回合控制控制器，实现真正的全双工交互：

支持用户在 AI 发言时随时打断；
系统可在 170ms 内检测到插话并中断输出；
插话成功率达 90%，误打断率仅 10.2%。

该控制器包含两个关键子模块：

✅ 个性化语音活动检测（pVAD）

能区分主说话人与背景噪声或其他人声；
减少因环境噪音或旁人说话导致的误触发；
提供精确的时间戳标记，提升上下文同步精度。

✅ 语义回合结束检测器（EoT）

不仅判断语音是否停止，更分析 ASR 输出的语义完整性；
中文准确率达 96.0%，英文达 94.9%；
避免“一句话没说完就响应”或“等太久才回复”的问题。

2. 半级联架构：兼顾性能与表达质量

FireRedChat 支持三种处理模式：

级联（Cascaded）：ASR → LLM → TTS 顺序执行；
半级联（Semi-cascaded）：在生成响应前融合语音情感与副语言特征；
直连（Direct）：用于简单任务。

其中，半级联架构是亮点：

在生成回复前注入语音情感信息（如语气急促、犹豫）；
使 AI 回应更具共情力和连贯性；
同时降低错误传播风险，提升整体鲁棒性。

3. 对话管理器：支持工具调用与上下文维护

对话管理模块支持：

工具调用（Tool Calling）：调用搜索、数据库、计算器等功能；
上下文感知响应：基于历史对话动态调整策略；
多轮状态追踪：防止信息丢失或重复提问。

小红书开源 FireRedChat：一个完整、可控的全双工语音交互系统

性能实测：接近工业级水平

FireRedChat 在多个维度进行了系统级评估，结果表明其已具备生产可用性：

指标	表现
插话成功率	170ms 内达到 90%
误打断率	仅 10.2%（显著低于同类系统）
EoT 准确率（中文）	96.0%
EoT 准确率（英文）	94.9%
端到端延迟 P50	2.341 秒
端到端延迟 P95	3.015 秒

💡 注：延迟指标已接近工业级产品（如字节跳动 DouBao），远优于开源框架 LiveKit 和 Ten。

此外，团队提出了三项系统级评估指标，用于衡量全双工系统的综合能力：

插话效率：衡量打断响应速度；
回合结束准确性：反映语义理解能力；
端到端延迟：体现整体流畅度。

这些指标为后续研究提供了标准化评测路径。

安全与隐私：专为企业打造

FireRedChat 明确定位为“私有化优先”的解决方案，具备以下安全特性：

所有语音数据不出内网；
无第三方 API 调用，杜绝数据泄露风险；
支持加密传输与访问控制；
模型与服务全部可审计、可追溯。

对于金融、医疗、政务等对合规要求高的行业，这一点至关重要。

语音模型 # FireRedChat # 小红书

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

SongPrep：腾讯提出自动化歌曲预处理方案，破解AIGC歌曲生成的数据难题

SongPrep：腾讯提出自动化歌曲预处理方案，破解AIGC歌曲生成的数据难题

语音模型 # SongPrep # 腾讯 # 音乐模型

6个月前

01280

阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio：支持语音增强、分离和目标说话人提取

阿里巴巴语音实验室发布开源语音处理框架 ClearerVoice-Studio：支持语音增强、分离和目标说话人提取

语音模型 # ClearerVoice-Studio # 阿里巴巴

1年前

03270

Useful开源自动语音识别 (ASR) 模型Moonshine：专门针对实时转录和语音命令处理进行了优化

Useful开源自动语音识别 (ASR) 模型Moonshine：专门针对实时转录和语音命令处理进行了优化

语音模型 # Moonshine # 语音识别模型

1年前

07140

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

ElevenLabs 发布音效生成模型SFX v2：音效生成更真实，支持无缝循环

语音模型 # ElevenLabs # SFX v2 # 音效生成模型

7个月前

01820

暂无评论

none

暂无评论...