如果你正在寻找一个高质量、支持中文、还能克隆自己声音的语音合成工具,可以试试 Audio.Z.AI —— 这是智谱 AI 基于其开源 TTS 系统 GLM-TTS 推出的在线服务,目前完全免费。

当前功能概览
- 语音合成:提供 3 款预设音色(男女声可选),支持中英文混合文本;
- 语音克隆:上传一段 3–10 秒的音频,或直接在页面录音,即可生成专属音色;
- 免费使用:无需付费;
- 字数限制:单次合成最多 300 字符,适合短句、提示音、演示片段等场景。

背后的技术:GLM-TTS
Audio.Z.AI 的核心引擎是 GLM-TTS,一款由智谱 AI 开发的开源文本到语音系统。它采用创新的 两阶段架构:
- LLM 阶段:基于大语言模型将文本转换为语音 token 序列;
- Flow Matching 阶段:通过流匹配模型生成高质量音频波形。
这一设计带来了多项突破性能力:
- ✅ 零样本语音克隆:无需训练,仅凭几秒参考音频即可复现音色;
- ✅ 情感增强:通过多奖励强化学习(RL),语音更具自然韵律与情绪表现;
- ✅ 精准发音控制:支持音素级干预,有效解决多音字、生僻字发音问题;
- ✅ 流式推理:适用于实时交互场景(如语音助手);
- ✅ 中英混合支持:兼顾语言切换的流畅性与准确性。
在公开中文测试集上,GLM-TTS 的字符错误率(CER)低至 0.89,音质已接近主流商业 TTS 产品,且完全开源。
适合谁用?
- 内容创作者:快速生成短视频配音、播客开场白;
- 开发者:测试 TTS 效果,评估是否集成 GLM-TTS 到自有项目;
- 教育工作者:制作带语音的课件或听力材料;
- 普通用户:尝试“用自己的声音说话”的趣味体验。
注意事项
- 当前 Web 版限制为 300 字符/次,不适合长文本合成;
- 克隆音色仅在当前会话中临时可用,不保存到服务器(符合隐私设计);
- 如需无限制使用,可自行部署开源版 GLM-TTS。