Covo-Audio：腾讯开源 7B 端到端语音大模型，重新定义“像人一样”的对话

40 0

在 AI 语音交互领域，长期存在一个痛点：传统的“语音识别 (ASR) + 大语言模型 (LLM) + 语音合成 (TTS)”三段式架构，导致信息丢失、延迟累积、情感匮乏，且难以实现真正的实时打断与插话。

腾讯 AI 实验室正式开源 Covo-Audio —— 一个仅 70 亿参数 (7B) 的端到端大型音频语言模型。它摒弃了繁琐的中间转换，直接在单一统一架构内处理连续音频输入并生成音频输出，实现了“听 - 思 - 说”的一体化。

在多项权威基准测试中，Covo-Audio 以小巧的体量，性能媲美甚至超越了 GPT-4o Audio、Step-Audio 2 (32B) 等巨型模型，尤其在中文情感共情和全双工实时交互上达到了业界顶尖水平。

拒绝“传声筒”：不再是“语音转文字 -> 文字思考 -> 文字转语音”。Covo-Audio 直接理解声波中的语义、语气、停顿和情感，并直接生成带有丰富情感的语音波形。
信息零丢失：保留了原声中的微妙细节（如犹豫、强调、笑声），让 AI 的回答不再机械冰冷。

边说边听：Covo-Audio-Chat-FD 变体支持真正的实时交互。AI 可以在你说话时倾听，适时插话、附和（“嗯嗯”、“我明白”），或优雅地处理被打断的情况。
拟人节奏：通过预训练学习了人类对话的自然节奏，轮次切换成功率高达 99.7%，远超竞品 Moshi (96.8%)。

灵活换肤：创新性地将“对话智商”与“声音风格”分离。你可以用几分钟的录音样本，让同一个高智商 AI 大脑瞬间切换成任何人的声音（如明星、亲人、卡通角色），而无需重新训练核心能力。
高质量 TTS 迁移：利用上下文适应技术，将高质量语音合成数据的能力迁移到对话模型中，既聪明又好听。

极致效率：仅 7B 参数量，却在 URO-Bench、VCB Bench 等多个测试中超越了几十亿参数的大模型。这意味着更低的部署成本、更快的响应速度，甚至有望在高端消费级显卡上本地运行。

Covo-Audio 的成功源于其独特的分层三模态语音 - 文本交错框架：

训练秘籍：

测试维度	关键指标	Covo-Audio 表现	对比竞品 (GPT-4o/Step-Audio 2 等)
口语对话	URO-Bench (中文)	三项第一，AlpacaEval 90.02 分	超越 GPT-4o Audio, Qwen3-Omni
指令遵循	VCB Bench (中文)	93.07 分 (全场最高)	显著领先同类开源模型
情感共情	VStyle (愤怒/悲伤/焦虑)	三项全部第一 (最高 5.00 分)	中文场景表现最佳，英文媲美顶尖商用
全双工交互	打断/停顿/附和处理	打断处理 96.81%，停顿 97.6%	远超 Moshi (停顿仅 53.2%)
音频理解	MMAU (音乐/环境音)	音乐理解全场最高 (76.05%)	7B 模型中排名第二，仅次于 32B 模型
鲁棒性	噪音/说话人变化	三项子任务全部创纪录	抗干扰能力极强