Hume AI 正式推出 Octave 2 ——其下一代文本到语音(TTS)模型的重大升级版本。作为“语音语言模型”(Speech Language Model, SLM)架构的延续,Octave 2 不仅在音质、速度和语言支持上全面进化,还引入了两项前所未有的功能:语音转换 和 直接音素编辑。

核心升级一览
| 特性 | Octave 2 改进 |
|---|---|
| 情感理解能力 | 更深入捕捉语调、节奏与情绪变化 |
| 支持语言数量 | 扩展至 11 种:阿拉伯语、英语、法语、德语、印地语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语 |
| 推理延迟 | ≤200ms,比前代快 40% |
| 新增功能 | 语音转换、音素级编辑 |
| 发音准确性 | 显著提升对生僻词、数字、符号和重复内容的处理 |
| 定价 | 仅为 Octave 1 的一半;专用部署下可低至每分钟音频不到 1 美分 |
什么是语音语言模型?
Octave 系列基于一种新型 AI 架构——语音语言模型(SLM),它不同于传统 TTS 系统。
传统 TTS 模型主要关注“把文字读出来”,而 SLM 能理解:
- 文本的情感意图(是兴奋?悲伤?还是秘密低语?)
- 句子结构如何影响语气起伏
- 如何还原说话者的个性特征,而不仅是声音音色
这使得 Octave 2 能够生成更具表现力、更自然的人类级语音,并准确再现特定说话风格。
多语言能力:从即时克隆到跨语言口音预测
Octave 2 当前支持 11 种主要语言,包括:
阿拉伯语|英语|法语|德语|印地语|意大利语|日语|韩语|葡萄牙语|俄语|西班牙语
所有语音均可通过“即时克隆”实现个性化声音定制——仅需一段母语者 15 秒的音频样本,即可创建专属音色。
更进一步,Octave 2 具备跨语言口音建模能力。例如:
- 使用日语母语者的音色生成英语语音时,系统会自动模拟该说话者说英语时可能带有的日语口音。
- 同样,韩语音色用于法语输出时也会保留原声者的发音习惯特征。
这一能力让本地化配音、角色语音设计等场景更加真实可信。
未来几个月内,Hume AI 计划将支持语言扩展至 至少 20 种。
极致性能:低延迟 + 高效率
Octave 2 是目前同类模型中响应最快的产品之一,端到端音频生成时间控制在 200ms 以内。
这不是以牺牲质量换来的提速。背后的技术突破在于:
- 与 Sambanova 合作,针对 Octave 2 的新架构开发了专用推理栈
- 部署于全球最先进的 LLM 推理芯片平台
- 实现高效并行处理,显著降低单位计算成本
结果是:性能更强,价格更低。
Octave 2 的定价仅为前代的一半,在专用部署模式下,每分钟合成音频成本可降至 不足 1 美分。
这意味着它可以真正支撑大规模应用:游戏 NPC 对话、客服机器人、有声书生成、教育内容本地化等。
两大首创功能:语音转换与音素编辑
🔁 语音转换(Voice Conversion)
Octave 2 可将一段语音的“音色”替换为另一个目标声音,同时保留原始语音的语调、节奏和情感表达细节。
应用场景包括:
- 影视配音:用原演员的声音为其角色生成其他语言版本台词
- 角色重塑:AI 演员代班录制补录内容,保持声音一致性
- 内容修改:人工调整 AI 输出后仍维持原有语音风格
示例:输入一段英文语音 + 目标韩语音色 → 输出由该韩语音色“说出”的相同语调和节奏的英文内容。
该功能即将上线平台。
🔤 直接音素编辑(Phoneme Editing)
这是 Octave 2 最具实验性的创新之一:允许用户对语音的底层音素序列进行精细操控。
你可以:
- 修改某个单词的发音方式(如将 “Nike” 读作 /niːki/ 还是 /naɪk/)
- 调整重音位置或延长特定音节
- 在不改变整体语义的前提下创造新词发音
示例:将经典电影台词中的 “Lebowski” 替换为虚构词 “leviaso”,并保持原句语调一致。
这种粒度的操作仅靠文本输入几乎无法完成。音素编辑赋予创作者前所未有的控制力,尤其适用于品牌命名朗读、影视特效语音、游戏角色命名等专业场景。
EVI 4 mini:面向对话系统的轻量级语音代理
除了 Octave 2,Hume AI 还推出了 EVI 4 mini ——一个集成 Octave 2 所有能力的语音到语音交互接口。
特点如下:
- 支持上述 11 种语言的实时语音交互
- 延迟极低,适合构建流畅对话体验
- 可与外部大语言模型(LLM)结合使用,实现完整语音对话链路
示例:开发者可用 EVI 4 mini 快速搭建一个多语言翻译助手——用户说出一句话,系统识别语言、调用 LLM 翻译、再用目标语言和指定音色朗读。
⚠️ 注意:EVI 4 mini 尚未具备自主生成回复内容的能力(即无内置 LLM),需通过 API 接入第三方模型(如 GPT、Claude 等)来完成语义理解与生成。
完整版 EVI 将在未来发布。
如何访问?
你现在就可以开始体验:
- Octave 2(文本到语音):访问 Hume AI Playground 或使用 API
- EVI 4 mini(语音到语音):同样已在Playground和 API中开放测试
接下来几周,Hume AI 将陆续发布:
- 更多语言支持
- 语音转换与音素编辑功能的正式开放
- 第三方基准评估报告















