
海螺语音
MiniMax旗下的海螺AI上线了基于T2A-01系列语音模型的“海螺语音”。这一更新为用户带来了更加自然、流畅的超拟人人声体验。
Linacodec是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建。
在语音 AI 领域,音频如何被表示,直接决定了 TTS(文本转语音)和 ASR(语音识别)系统的速度、质量与部署成本。
近日开源的 Linacodec,正试图重新定义这一基础环节。
它是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建——这在现有开源方案中极为罕见。
| 模型 | Tokens/秒 | 采样率 |
|---|---|---|
| Linacodec | 12.5 | 48kHz |
| DAC | 774 | 44.1kHz |
| EnCodec | 300 | 24kHz |
| Xcodec2 | 50 | 16kHz |
Linacodec 在压缩率与音质之间取得罕见平衡:比 DAC 压缩 60 倍,却输出更清晰的 48kHz 音频。
项目基于 kanade-tokenizer 开发,作者特别致谢原始团队。
pip install git+https://github.com/ysharma3501/LinaCodec.git
from linacodec.codec import LinaCodec
lina = LinaCodec()
tokens, emb = lina.encode("input.wav")
audio = lina.decode(tokens, emb) # 输出 48kHz 音频
audio = lina.convert_voice(
source_wav="content.wav", # 保留语义内容
reference_wav="style.wav" # 替换为参考音色
)
# 即使输入是 24kHz 音频,输出仍为 48kHz
audio = lina.decode(*lina.encode("24k_input.wav"))







