LinaCodec

4天前发布 8 00

Linacodec是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建。

所在地:
中国
收录时间:
2026-01-04
其他站点:
LinaCodecLinaCodec

在语音 AI 领域,音频如何被表示,直接决定了 TTS(文本转语音)和 ASR(语音识别)系统的速度、质量与部署成本。

近日开源的 Linacodec,正试图重新定义这一基础环节。

它是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建——这在现有开源方案中极为罕见。

为什么 Linacodec 值得关注?

✅ 极致压缩 vs 高清音质

模型Tokens/秒采样率
Linacodec12.548kHz
DAC77444.1kHz
EnCodec30024kHz
Xcodec25016kHz
  • Tokens/秒越低 → 模型训练/推理越快、显存占用越小
  • 采样率越高 → 音频细节越丰富、语音自然度越高

Linacodec 在压缩率与音质之间取得罕见平衡:比 DAC 压缩 60 倍,却输出更清晰的 48kHz 音频。

核心性能优势

  • 推理加速:TTS 模型可跑 800 倍实时速度,比 MiraTTS 快 8 倍
  • 训练高效:高质量 TTS 模型1 天内即可完成训练
  • 双模支持同时适用于 TTS 与 ASR(多数编解码器仅支持其一)
  • 扩展能力:天然支持语音转换(Voice Conversion)、音频超分(24kHz → 48kHz)、降噪等任务

技术亮点:如何做到“又小又清”?

  1. 双路径 Vocos 解码器
    • 仅用 30 小时训练数据(常规需数百小时)
    • 实现从 24kHz 到 48kHz 的高质量上采样重建
  2. 蒸馏版 WavLM Base+ 编码器
    • 在保持音质的前提下,大幅提升编码速度(达 200× 实时)
  3. Snake 激活上采样模块
    • 借鉴 BigVGAN 的 Snake 激活函数
    • 构建自定义上采样路径,提升高频细节还原能力

项目基于 kanade-tokenizer 开发,作者特别致谢原始团队。

快速上手(一行安装)

pip install git+https://github.com/ysharma3501/LinaCodec.git

示例 1:音频重建

from linacodec.codec import LinaCodec
lina = LinaCodec()
tokens, emb = lina.encode("input.wav")
audio = lina.decode(tokens, emb)  # 输出 48kHz 音频

示例 2:语音转换(内容 + 音色分离)

audio = lina.convert_voice(
    source_wav="content.wav",      # 保留语义内容
    reference_wav="style.wav"     # 替换为参考音色
)

示例 3:音频超分辨率

# 即使输入是 24kHz 音频,输出仍为 48kHz
audio = lina.decode(*lina.encode("24k_input.wav"))

应用场景

  • 边缘设备 TTS:极低 token 速率大幅降低推理负载
  • 大规模 ASR 训练:压缩音频表示节省 GPU 显存与通信带宽
  • 语音编辑工具链:通过 token 级操作实现语音内容修改
  • 跨语言语音克隆:结合音色与内容解耦,实现高效 voice conversion

数据统计

相关导航

暂无评论

none
暂无评论...