Linacodec：12.5 令牌/秒的高压缩音频分词器，支持 48kHz 高清语音

语音模型2个月前发布小马良

20 0

在 AI 语音模型（TTS/ASR）领域，音频分词器（Audio Tokenizer）的效率直接决定训练速度、推理延迟与生成质量。传统方案如 EnCodec、DAC 虽能压缩音频，但令牌率高、采样率低，成为性能瓶颈。

Linacodec 是专为语音类模型设计的音频分词器（Audio Tokenizer），核心能力是将音频以极低令牌密度进行压缩编码，并高质量重建为 48kHz 音频，在压缩效率、音质、推理速度上实现显著突破。

GitHub：https://github.com/ysharma3501/LinaCodec
模型：https://huggingface.co/YatharthS/LinaCodec

Linacodec 以 每秒仅 12.5 个令牌（171 bps）的极致压缩率，输出 48kHz 高清音频，同时实现 200 倍实时编码 与 400 倍实时解码，为下一代语音模型奠定基础。

Linacodec：12.5 令牌/秒的高压缩音频分词器，支持 48kHz 高清语音

核心突破：压缩、质量、速度三者兼得

指标	Linacodec	传统方案（如 DAC）	提升幅度
令牌率	12.5 / 秒	774 / 秒	压缩 60 倍
输出采样率	48 kHz	44.1 kHz / 24 kHz	更高清、更自然
TTS 推理速度	800 倍实时	~100 倍实时（MiraTTS）	快 8 倍
训练周期	<1 天	数天至数周	大幅缩短

关键意义：更低的令牌率 = 更短的序列长度 = 更快的 Transformer 训练与推理。

为什么 Linacodec 如此重要？

1. 极大加速 TTS/ASR 模型

TTS 推理达 800 倍实时：生成 1 分钟语音仅需 75 毫秒，接近“瞬时响应”；
训练效率革命：高质量端到端 TTS 模型可在单卡 24 小时内完成训练，降低研发门槛。

2. 统一 TTS 与 ASR 的音频表示

传统分词器多为 TTS 或 ASR 单向优化；
Linacodec 同时适用于文本到语音（TTS），避免多套系统维护成本。

3. 超越压缩：支持多任务扩展

语音转换（Voice Conversion）：通过令牌操作实现音色迁移；
音频超分辨率：从低采样率输入重建 48kHz 高频细节；
降噪：在令牌空间过滤噪声成分，提升信噪比。

技术对比：Linacodec vs 主流编解码器

模型	令牌/秒	输出采样率	适用场景
Linacodec	12.5	48 kHz	TTS/ASR/多任务
DAC	774	44.1 kHz	音乐生成（高保真）
EnCodec	300	24 kHz	通用音频压缩
Xcodec2	50	16 kHz	低带宽语音通信
Mimi	200	24 kHz	语音合成

✅ Linacodec 的定位：专为语音任务优化，在保证可懂度与自然度的前提下，追求极致压缩与速度。

典型应用场景

实时语音助手：低延迟响应，支持长对话流；
边缘设备 TTS：在手机/嵌入式设备上运行高清语音合成；
大规模语音数据集构建：快速压缩 PB 级语音数据，节省存储与传输成本；
多语言 ASR 系统：统一音频表示，简化跨语言模型架构。

语音模型 # Linacodec # 音频分词器

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Foundation-1：重新定义 AI 音乐制作，首个“结构化文本生成采样”模型

新Foundation-1：重新定义 AI 音乐制作，首个“结构化文本生成采样”模型

语音模型 # Foundation-1 # 采样模型

3天前

070

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

Kyutai 推出全新语音系统Unmute，让任何大模型都能“说话”

语音模型 # Kyutai # Unmute # 语音模型

10个月前

01640

阿里通义实验室开源 Fun-CineForge：首个影视级多场景 AI 配音大模型，攻克“音画同步”与“多人对话”难题

阿里通义实验室开源 Fun-CineForge：首个影视级多场景 AI 配音大模型，攻克“音画同步”与“多人对话”难题

语音模型 # Fun-CineForge # 通义实验室 # 配音大模型

2周前

0230

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

VibeVoice-1.5B：微软开源TTS框架，可生成4人60分钟长对话音频

语音模型 # TTS # VibeVoice-1.5B # 微软

7个月前

05330

暂无评论

none

暂无评论...