在 AI 语音模型(TTS/ASR)领域,音频分词器(Audio Tokenizer)的效率直接决定训练速度、推理延迟与生成质量。传统方案如 EnCodec、DAC 虽能压缩音频,但令牌率高、采样率低,成为性能瓶颈。
Linacodec 是专为语音类模型设计的音频分词器(Audio Tokenizer),核心能力是将音频以极低令牌密度进行压缩编码,并高质量重建为 48kHz 音频,在压缩效率、音质、推理速度上实现显著突破。
Linacodec 以 每秒仅 12.5 个令牌(171 bps)的极致压缩率,输出 48kHz 高清音频,同时实现 200 倍实时编码 与 400 倍实时解码,为下一代语音模型奠定基础。

核心突破:压缩、质量、速度三者兼得
| 指标 | Linacodec | 传统方案(如 DAC) | 提升幅度 |
|---|---|---|---|
| 令牌率 | 12.5 / 秒 | 774 / 秒 | 压缩 60 倍 |
| 输出采样率 | 48 kHz | 44.1 kHz / 24 kHz | 更高清、更自然 |
| TTS 推理速度 | 800 倍实时 | ~100 倍实时(MiraTTS) | 快 8 倍 |
| 训练周期 | <1 天 | 数天至数周 | 大幅缩短 |
关键意义:更低的令牌率 = 更短的序列长度 = 更快的 Transformer 训练与推理。
为什么 Linacodec 如此重要?
1. 极大加速 TTS/ASR 模型
- TTS 推理达 800 倍实时:生成 1 分钟语音仅需 75 毫秒,接近“瞬时响应”;
- 训练效率革命:高质量端到端 TTS 模型可在单卡 24 小时内完成训练,降低研发门槛。
2. 统一 TTS 与 ASR 的音频表示
- 传统分词器多为 TTS 或 ASR 单向优化;
- Linacodec 同时适用于文本到语音(TTS),避免多套系统维护成本。
3. 超越压缩:支持多任务扩展
- 语音转换(Voice Conversion):通过令牌操作实现音色迁移;
- 音频超分辨率:从低采样率输入重建 48kHz 高频细节;
- 降噪:在令牌空间过滤噪声成分,提升信噪比。
技术对比:Linacodec vs 主流编解码器
| 模型 | 令牌/秒 | 输出采样率 | 适用场景 |
|---|---|---|---|
| Linacodec | 12.5 | 48 kHz | TTS/ASR/多任务 |
| DAC | 774 | 44.1 kHz | 音乐生成(高保真) |
| EnCodec | 300 | 24 kHz | 通用音频压缩 |
| Xcodec2 | 50 | 16 kHz | 低带宽语音通信 |
| Mimi | 200 | 24 kHz | 语音合成 |
✅ Linacodec 的定位:专为语音任务优化,在保证可懂度与自然度的前提下,追求极致压缩与速度。
典型应用场景
- 实时语音助手:低延迟响应,支持长对话流;
- 边缘设备 TTS:在手机/嵌入式设备上运行高清语音合成;
- 大规模语音数据集构建:快速压缩 PB 级语音数据,节省存储与传输成本;
- 多语言 ASR 系统:统一音频表示,简化跨语言模型架构。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...





![ComfyUI已支持 FLUX.2 [klein]:4B 模型实现 1.2 秒本地图像生成与编辑](https://pic.sd114.wiki/wp-content/uploads/2026/01/1768500082-1768500082-FLUX.2-klein-4.webp~tplv-o4t1hxlaqv-image.image)








