FireRedTTS-2:面向长对话场景的流式多说话人语音合成系统

语音模型2个月前发布 小马良
96 0

播客制作、智能客服和实时对话系统中,自然流畅的多说话人语音合成是一项关键能力。然而,当前主流的对话式TTS(Text-to-Speech)技术普遍存在几个核心问题:

  • 需要预先提供完整对话文本,无法支持边输入边生成;
  • 所有角色语音混合输出,缺乏清晰的角色区分;
  • 说话人切换生硬,语调不连贯,情感表达机械;
  • 合成过程不稳定,难以适应长时间、多轮次交互场景。

为解决这些问题,小红书FireRed项目组推出了 FireRedTTS-2 —— 一种专为长篇、多说话人对话设计的流式语音合成系统。它不仅支持实时逐句生成,还能保持上下文感知的韵律控制与稳定的说话人身份切换,已在播客生成和聊天机器人等实际场景中验证其有效性。

FireRedTTS-2:面向长对话场景的流式多说话人语音合成系统

核心能力概览

特性说明
支持长对话当前支持最长3分钟、4人参与的连续对话语音生成,可通过扩展数据进一步延长
多语言兼容覆盖中、英、日、韩、法、德、俄等多种语言,支持跨语言对话与代码切换下的零样本语音克隆
实时低延迟基于12.5Hz流式语音标记器,在L20 GPU上首包延迟低至140ms
稳定高质量在WER/CER、相似度等指标上表现优异,适用于独白与复杂对话场景
可控音色生成支持随机音色生成,可用于ASR训练或语音交互测试

关键技术突破

1. 流式语音标记器:提升效率与建模稳定性

FireRedTTS-2引入了新型 12.5Hz流式语音标记器,相较于传统更高频率的标记方案(如50Hz),该设计显著降低了序列长度,从而加快训练和推理速度,同时延长了最大可处理对话长度。

更重要的是,较低采样率有助于捕捉更稳定的语音语义特征,减少噪声干扰,使文本到语音标记的映射更加鲁棒,尤其适用于长上下文建模。

2. 文本-语音交错建模架构

系统采用“文本-语音交错序列”作为输入格式:每段带说话人标签的文本后接对应时间对齐的语音标记,按时间顺序排列。这种结构天然保留了对话的时间动态与角色轮替信息。

在此基础上,FireRedTTS-2使用双变换器架构进行建模:

  • 第一层:大型仅解码器变换器
    负责从历史上下文中预测当前语音标记,具备强大的上下文理解能力。
  • 后续层:轻量级变换器
    在已知部分输出的基础上精炼结果,降低计算开销,提升推理效率。

这一分层策略兼顾了建模深度与实时性能,实现了高质量与低延迟的平衡。

FireRedTTS-2:面向长对话场景的流式多说话人语音合成系统

应用场景与优势体现

场景一:播客内容自动生成

传统播客制作依赖真人录制,成本高且周期长。FireRedTTS-2可在无需人工配音的情况下,自动生成多人访谈类音频内容。

实验显示,在零样本设置下,FireRedTTS-2在以下方面优于现有系统(MoonCast、ZipVoice-Dialog、MOSS-TTSD):

  • 更高的语音清晰度(WER更低)
  • 更可靠的说话人轮换识别
  • 更自然的语调变化(上下文一致的韵律表现)

听众能清楚分辨不同角色,并感受到符合语境的情绪起伏。

场景二:实时聊天机器人集成

对于需要即时响应的对话系统(如虚拟助手、AI陪聊),FireRedTTS-2支持逐句流式生成,无需等待整个对话结束即可开始发声。

通过微调,模型可根据隐含上下文线索自动调整语气与情感。例如:

  • 对方表达惊讶时,回应语气也呈现相应的情绪张力;
  • 连续提问时保持适度紧迫感,而非机械重复。

在情感控制任务中,“惊喜”、“疑问”、“高兴”等六类情绪的识别与再现准确率均达到较高水平(其中“惊喜”达83.3%),显著提升了交互的真实感。

实测表现:全面超越现有方案

1. 语音标记器性能(LibriSpeech测试集)

指标表现
WER(词错误率)最低,优于对比模型
语音可理解性主观评分领先
说话人相似度接近真实录音
音质 MOS处于第一梯队

2. 语音克隆能力(SeedTTS-eval基准)

在普通话与英语的零样本语音克隆任务中,FireRedTTS-2生成的声音在自然度与身份一致性方面接近人类录音水平,展现出强泛化能力。

3. 播客生成对比(零样本)

相比MoonCast、ZipVoice-Dialog和MOSS-TTSD,FireRedTTS-2在以下维度全面占优:

  • 客观清晰度(WER ↓)
  • 角色辨识准确率(↑)
  • 主观自然度评分(MOS ↑)

特别是在长对话中,未出现明显失真或节奏断裂现象。

未来展望

FireRedTTS-2目前主要服务于小红书内部的播客生成与对话类产品,但其开放架构具备良好的扩展潜力:

  • 可通过增加训练数据支持更多说话人(>4人)与更长对话(>5分钟);
  • 支持定制化音色入库,满足品牌化语音需求;
  • 结合ASR与NLP模块,构建端到端的全自动对话生产流水线。

随着多模态交互需求的增长,能够稳定处理长上下文、支持实时流式输出的TTS系统将成为下一代人机交互的重要基础设施。

© 版权声明

相关文章

暂无评论

none
暂无评论...