小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

语音模型2个月前发布 小马良
182 0

在智能助手和客户服务场景中,用户希望与AI的对话像人与人交流一样自然——可以随时插话、打断、继续,而系统能即时响应。要实现这种体验,需要真正的全双工语音交互能力

然而,现有方案存在明显短板:

  • 端到端模型难以调试和控制;
  • 模块化系统多依赖闭源组件或外部API,限制了定制与优化空间。

为解决这一问题,小红书 FireRed 项目组提出并开源了 FireRedChat——一个完整、实用、完全自托管的全双工语音交互系统。它不仅支持用户与AI代理实时并发说话和精准插话,还通过模块化设计实现了高可控性、低延迟和企业级隐私保障。

小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

核心目标:让语音交互更自然、更可靠

FireRedChat 的设计目标是构建一个鲁棒、低延迟、可定制的语音 AI 基础设施,适用于以下场景:

  • 智能客服中的多轮打断式问答;
  • 实时语音助手(如车载、家居);
  • 多模态人机协作系统;
  • 需要本地化部署、零数据外泄的企业应用。

其核心优势在于:不依赖任何第三方语音服务,所有模块均可私有化部署,确保数据安全与系统可控。

系统架构:模块化设计,灵活可扩展

FireRedChat 采用模块化架构,主要由以下几个组件构成:

组件功能说明
LiveKit RTC Server实时音视频通信核心,负责双向流传输
Agents (AI-Agent Bot Server)主控逻辑层,协调 ASR、LLM、TTS 和对话管理
Agents-Playground (WebUI)可视化交互界面,支持在线测试与调试
Redis Server分布式状态存储,支持多节点协同
ASR Server自动语音识别,集成标点恢复模型
TTS Server文本转语音服务,支持 G2P 与文本规范化
LLM Server用户自行部署的大模型服务(如 Ollama、vLLM、Dify)

🔧 提示:FireRedChat 不内置 LLM,开发者需自行接入本地或私有化部署的模型服务,真正实现“端到端可控”。

小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

关键技术创新

1. 全双工控制器:精准控制插话与响应时机

传统半双工系统必须等待用户说完才能回应,体验生硬。FireRedChat 引入了一个统一的回合控制控制器,实现真正的全双工交互:

  • 支持用户在 AI 发言时随时打断;
  • 系统可在 170ms 内检测到插话并中断输出;
  • 插话成功率达 90%,误打断率仅 10.2%

该控制器包含两个关键子模块:

✅ 个性化语音活动检测(pVAD)
  • 能区分主说话人与背景噪声或其他人声;
  • 减少因环境噪音或旁人说话导致的误触发;
  • 提供精确的时间戳标记,提升上下文同步精度。
✅ 语义回合结束检测器(EoT)
  • 不仅判断语音是否停止,更分析 ASR 输出的语义完整性;
  • 中文准确率达 96.0%,英文达 94.9%
  • 避免“一句话没说完就响应”或“等太久才回复”的问题。

2. 半级联架构:兼顾性能与表达质量

FireRedChat 支持三种处理模式:

  • 级联(Cascaded):ASR → LLM → TTS 顺序执行;
  • 半级联(Semi-cascaded):在生成响应前融合语音情感与副语言特征;
  • 直连(Direct):用于简单任务。

其中,半级联架构是亮点:

  • 在生成回复前注入语音情感信息(如语气急促、犹豫);
  • 使 AI 回应更具共情力和连贯性;
  • 同时降低错误传播风险,提升整体鲁棒性。

3. 对话管理器:支持工具调用与上下文维护

对话管理模块支持:

  • 工具调用(Tool Calling):调用搜索、数据库、计算器等功能;
  • 上下文感知响应:基于历史对话动态调整策略;
  • 多轮状态追踪:防止信息丢失或重复提问。
小红书开源 FireRedChat:一个完整、可控的全双工语音交互系统

性能实测:接近工业级水平

FireRedChat 在多个维度进行了系统级评估,结果表明其已具备生产可用性:

指标表现
插话成功率170ms 内达到 90%
误打断率仅 10.2%(显著低于同类系统)
EoT 准确率(中文)96.0%
EoT 准确率(英文)94.9%
端到端延迟 P502.341 秒
端到端延迟 P953.015 秒

💡 注:延迟指标已接近工业级产品(如字节跳动 DouBao),远优于开源框架 LiveKit 和 Ten。

此外,团队提出了三项系统级评估指标,用于衡量全双工系统的综合能力:

  1. 插话效率:衡量打断响应速度;
  2. 回合结束准确性:反映语义理解能力;
  3. 端到端延迟:体现整体流畅度。

这些指标为后续研究提供了标准化评测路径。

安全与隐私:专为企业打造

FireRedChat 明确定位为“私有化优先”的解决方案,具备以下安全特性:

  • 所有语音数据不出内网;
  • 无第三方 API 调用,杜绝数据泄露风险;
  • 支持加密传输与访问控制;
  • 模型与服务全部可审计、可追溯。

对于金融、医疗、政务等对合规要求高的行业,这一点至关重要。

© 版权声明

相关文章

暂无评论

none
暂无评论...