Linacodec:12.5 令牌/秒的高压缩音频分词器,支持 48kHz 高清语音

在 AI 语音模型(TTS/ASR)领域,音频分词器(Audio Tokenizer)的效率直接决定训练速度、推理延迟与生成质量。传统方案如 EnCodec、DAC 虽能压缩音频,但令牌率高、采样率低,成为性能瓶颈。

Linacodec 是专为语音类模型设计的音频分词器(Audio Tokenizer),核心能力是将音频以极低令牌密度进行压缩编码,并高质量重建为 48kHz 音频,在压缩效率、音质、推理速度上实现显著突破。

Linacodec 以 每秒仅 12.5 个令牌(171 bps)的极致压缩率,输出 48kHz 高清音频,同时实现 200 倍实时编码 与 400 倍实时解码,为下一代语音模型奠定基础。

Linacodec:12.5 令牌/秒的高压缩音频分词器,支持 48kHz 高清语音

核心突破:压缩、质量、速度三者兼得

指标Linacodec传统方案(如 DAC)提升幅度
令牌率12.5 / 秒774 / 秒压缩 60 倍
输出采样率48 kHz44.1 kHz / 24 kHz更高清、更自然
TTS 推理速度800 倍实时~100 倍实时(MiraTTS)快 8 倍
训练周期<1 天数天至数周大幅缩短

关键意义:更低的令牌率 = 更短的序列长度 = 更快的 Transformer 训练与推理。

为什么 Linacodec 如此重要?

1. 极大加速 TTS/ASR 模型

  • TTS 推理达 800 倍实时:生成 1 分钟语音仅需 75 毫秒,接近“瞬时响应”;
  • 训练效率革命:高质量端到端 TTS 模型可在单卡 24 小时内完成训练,降低研发门槛。

2. 统一 TTS 与 ASR 的音频表示

  • 传统分词器多为 TTS 或 ASR 单向优化;
  • Linacodec 同时适用于文本到语音(TTS),避免多套系统维护成本。

3. 超越压缩:支持多任务扩展

  • 语音转换(Voice Conversion):通过令牌操作实现音色迁移;
  • 音频超分辨率:从低采样率输入重建 48kHz 高频细节;
  • 降噪:在令牌空间过滤噪声成分,提升信噪比。

技术对比:Linacodec vs 主流编解码器

模型令牌/秒输出采样率适用场景
Linacodec12.548 kHzTTS/ASR/多任务
DAC77444.1 kHz音乐生成(高保真)
EnCodec30024 kHz通用音频压缩
Xcodec25016 kHz低带宽语音通信
Mimi20024 kHz语音合成

✅ Linacodec 的定位专为语音任务优化,在保证可懂度与自然度的前提下,追求极致压缩与速度。

典型应用场景

  • 实时语音助手:低延迟响应,支持长对话流;
  • 边缘设备 TTS:在手机/嵌入式设备上运行高清语音合成;
  • 大规模语音数据集构建:快速压缩 PB 级语音数据,节省存储与传输成本;
  • 多语言 ASR 系统:统一音频表示,简化跨语言模型架构。
© 版权声明

相关文章

暂无评论

none
暂无评论...