
Krisp
Krisp的AI口音转换功能为跨语言沟通提供了一种新的解决方案。通过实时将说话者的口音转换为美国英语,该工具能够有效减少沟通障碍,提高沟通效率。尽管目前该技术主要针对印度英语口音,但其未来扩展计划显示了其巨大的应用潜力。
Linacodec是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建。
在语音 AI 领域,音频如何被表示,直接决定了 TTS(文本转语音)和 ASR(语音识别)系统的速度、质量与部署成本。
近日开源的 Linacodec,正试图重新定义这一基础环节。
它是一款极低比特率(171 bps)的音频分词器,仅用 12.5 个 token/秒 即可完整表示语音信号,并支持 48kHz 高清音频重建——这在现有开源方案中极为罕见。
| 模型 | Tokens/秒 | 采样率 |
|---|---|---|
| Linacodec | 12.5 | 48kHz |
| DAC | 774 | 44.1kHz |
| EnCodec | 300 | 24kHz |
| Xcodec2 | 50 | 16kHz |
Linacodec 在压缩率与音质之间取得罕见平衡:比 DAC 压缩 60 倍,却输出更清晰的 48kHz 音频。
项目基于 kanade-tokenizer 开发,作者特别致谢原始团队。
pip install git+https://github.com/ysharma3501/LinaCodec.git
from linacodec.codec import LinaCodec
lina = LinaCodec()
tokens, emb = lina.encode("input.wav")
audio = lina.decode(tokens, emb) # 输出 48kHz 音频
audio = lina.convert_voice(
source_wav="content.wav", # 保留语义内容
reference_wav="style.wav" # 替换为参考音色
)
# 即使输入是 24kHz 音频,输出仍为 48kHz
audio = lina.decode(*lina.encode("24k_input.wav"))







