Covo-Audio:腾讯开源 7B 端到端语音大模型,重新定义“像人一样”的对话

在 AI 语音交互领域,长期存在一个痛点:传统的“语音识别 (ASR) + 大语言模型 (LLM) + 语音合成 (TTS)”三段式架构,导致信息丢失、延迟累积、情感匮乏,且难以实现真正的实时打断与插话。

腾讯 AI 实验室正式开源 Covo-Audio —— 一个仅 70 亿参数 (7B) 的端到端大型音频语言模型。它摒弃了繁琐的中间转换,直接在单一统一架构内处理连续音频输入并生成音频输出,实现了“听 - 思 - 说”的一体化。

  • GitHub:https://github.com/Tencent/Covo-Audio
  • 模型:https://huggingface.co/tencent/Covo-Audio-Chat

在多项权威基准测试中,Covo-Audio 以小巧的体量,性能媲美甚至超越了 GPT-4o Audio、Step-Audio 2 (32B) 等巨型模型,尤其在中文情感共情全双工实时交互上达到了业界顶尖水平。

Covo-Audio:腾讯开源 7B 端到端语音大模型,重新定义“像人一样”的对话

核心突破:为什么 Covo-Audio 与众不同?

1. 🎙️ 真正的端到端 (End-to-End)

  • 拒绝“传声筒”:不再是“语音转文字 -> 文字思考 -> 文字转语音”。Covo-Audio 直接理解声波中的语义、语气、停顿和情感,并直接生成带有丰富情感的语音波形。
  • 信息零丢失:保留了原声中的微妙细节(如犹豫、强调、笑声),让 AI 的回答不再机械冰冷。

2. 🗣️ 原生全双工 (Native Full-Duplex)

  • 边说边听:Covo-Audio-Chat-FD 变体支持真正的实时交互。AI 可以在你说话时倾听,适时插话、附和(“嗯嗯”、“我明白”),或优雅地处理被打断的情况。
  • 拟人节奏:通过预训练学习了人类对话的自然节奏,轮次切换成功率高达 99.7%,远超竞品 Moshi (96.8%)。

3. 🧠 智能与音色解耦 (Decoupling)

  • 灵活换肤:创新性地将“对话智商”与“声音风格”分离。你可以用几分钟的录音样本,让同一个高智商 AI 大脑瞬间切换成任何人的声音(如明星、亲人、卡通角色),而无需重新训练核心能力。
  • 高质量 TTS 迁移:利用上下文适应技术,将高质量语音合成数据的能力迁移到对话模型中,既聪明又好听。

4. 📉 小参数,大能量

  • 极致效率:仅 7B 参数量,却在 URO-Bench、VCB Bench 等多个测试中超越了几十亿参数的大模型。这意味着更低的部署成本、更快的响应速度,甚至有望在高端消费级显卡上本地运行。

技术架构:三模态交织的智慧

Covo-Audio 的成功源于其独特的分层三模态语音 - 文本交错框架:

  1. 耳朵 (Whisper-large-v3):强大的语音编码器,擅长嘈杂环境下的听觉感知。
  2. 神经束 (Adapter):轻量级适配器,将声学特征转化为大模型可理解的格式。
  3. 大脑 (Qwen2.5-7B):基于通义千问 2.5 基座,负责深度推理、逻辑判断和对话规划。
  4. 嘴巴 (Speech Tokenizer + Decoder):将离散的语音令牌还原为 24KHz 高保真波形。

训练秘籍

  • 三模态融合:同时处理连续声学特征、离散语音令牌和自然语言文本,让模型既懂“说什么”也懂“怎么说”。
  • 伪装训练:巧妙地将 TTS 数据包装成对话数据进行训练,既学会了百变音色,又没变笨。

实测表现:全面领先

测试维度关键指标Covo-Audio 表现对比竞品 (GPT-4o/Step-Audio 2 等)
口语对话URO-Bench (中文)三项第一,AlpacaEval 90.02 分超越 GPT-4o Audio, Qwen3-Omni
指令遵循VCB Bench (中文)93.07 分 (全场最高)显著领先同类开源模型
情感共情VStyle (愤怒/悲伤/焦虑)三项全部第一 (最高 5.00 分)中文场景表现最佳,英文媲美顶尖商用
全双工交互打断/停顿/附和处理打断处理 96.81%,停顿 97.6%远超 Moshi (停顿仅 53.2%)
音频理解MMAU (音乐/环境音)音乐理解全场最高 (76.05%)7B 模型中排名第二,仅次于 32B 模型
鲁棒性噪音/说话人变化三项子任务全部创纪录抗干扰能力极强

应用场景展望

  • 🤖 超自然虚拟助手:客服、陪伴型机器人,能听懂用户的愤怒与悲伤,给予有温度的回应。
  • 🎧 实时翻译耳机:直接语音进、语音出,保留原说话人的语气和情感,跨语言交流无障碍。
  • 🎮 游戏 NPC:拥有无限对话能力且声音多变的 NPC,能根据玩家情绪实时调整语调。
  • 🎙️ 个性化有声书:用任意音色朗读故事,同时保持对故事情感的精准演绎。
  • 📱 本地化隐私保护:得益于 7B 的小体积,未来可部署在手机或边缘设备上,实现完全离线的私密语音交互。
© 版权声明

相关文章

暂无评论

none
暂无评论...