Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统

语音模型2个月前发布 小马良
76 0

Hume AI 正式推出 Octave 2 ——其下一代文本到语音(TTS)模型的重大升级版本。作为“语音语言模型”(Speech Language Model, SLM)架构的延续,Octave 2 不仅在音质、速度和语言支持上全面进化,还引入了两项前所未有的功能:语音转换 和 直接音素编辑

Hume AI 发布 Octave 2:更智能、多语言、低延迟的语音合成系统

Hume 推出新一代情感语音模型 EVI 3,让 AI 更懂你的情绪

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

核心升级一览

特性Octave 2 改进
情感理解能力更深入捕捉语调、节奏与情绪变化
支持语言数量扩展至 11 种:阿拉伯语、英语、法语、德语、印地语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语
推理延迟≤200ms,比前代快 40%
新增功能语音转换、音素级编辑
发音准确性显著提升对生僻词、数字、符号和重复内容的处理
定价仅为 Octave 1 的一半;专用部署下可低至每分钟音频不到 1 美分

什么是语音语言模型?

Octave 系列基于一种新型 AI 架构——语音语言模型(SLM),它不同于传统 TTS 系统。

传统 TTS 模型主要关注“把文字读出来”,而 SLM 能理解:

  • 文本的情感意图(是兴奋?悲伤?还是秘密低语?)
  • 句子结构如何影响语气起伏
  • 如何还原说话者的个性特征,而不仅是声音音色

这使得 Octave 2 能够生成更具表现力、更自然的人类级语音,并准确再现特定说话风格。

多语言能力:从即时克隆到跨语言口音预测

Octave 2 当前支持 11 种主要语言,包括:

阿拉伯语|英语|法语|德语|印地语|意大利语|日语|韩语|葡萄牙语|俄语|西班牙语

所有语音均可通过“即时克隆”实现个性化声音定制——仅需一段母语者 15 秒的音频样本,即可创建专属音色。

更进一步,Octave 2 具备跨语言口音建模能力。例如:

  • 使用日语母语者的音色生成英语语音时,系统会自动模拟该说话者说英语时可能带有的日语口音。
  • 同样,韩语音色用于法语输出时也会保留原声者的发音习惯特征。

这一能力让本地化配音、角色语音设计等场景更加真实可信。

未来几个月内,Hume AI 计划将支持语言扩展至 至少 20 种

极致性能:低延迟 + 高效率

Octave 2 是目前同类模型中响应最快的产品之一,端到端音频生成时间控制在 200ms 以内

这不是以牺牲质量换来的提速。背后的技术突破在于:

  • 与 Sambanova 合作,针对 Octave 2 的新架构开发了专用推理栈
  • 部署于全球最先进的 LLM 推理芯片平台
  • 实现高效并行处理,显著降低单位计算成本

结果是:性能更强,价格更低。
Octave 2 的定价仅为前代的一半,在专用部署模式下,每分钟合成音频成本可降至 不足 1 美分

这意味着它可以真正支撑大规模应用:游戏 NPC 对话、客服机器人、有声书生成、教育内容本地化等。

两大首创功能:语音转换与音素编辑

🔁 语音转换(Voice Conversion)

Octave 2 可将一段语音的“音色”替换为另一个目标声音,同时保留原始语音的语调、节奏和情感表达细节

应用场景包括:

  • 影视配音:用原演员的声音为其角色生成其他语言版本台词
  • 角色重塑:AI 演员代班录制补录内容,保持声音一致性
  • 内容修改:人工调整 AI 输出后仍维持原有语音风格

示例:输入一段英文语音 + 目标韩语音色 → 输出由该韩语音色“说出”的相同语调和节奏的英文内容。

该功能即将上线平台。

🔤 直接音素编辑(Phoneme Editing)

这是 Octave 2 最具实验性的创新之一:允许用户对语音的底层音素序列进行精细操控。

你可以:

  • 修改某个单词的发音方式(如将 “Nike” 读作 /niːki/ 还是 /naɪk/)
  • 调整重音位置或延长特定音节
  • 在不改变整体语义的前提下创造新词发音

示例:将经典电影台词中的 “Lebowski” 替换为虚构词 “leviaso”,并保持原句语调一致。

这种粒度的操作仅靠文本输入几乎无法完成。音素编辑赋予创作者前所未有的控制力,尤其适用于品牌命名朗读、影视特效语音、游戏角色命名等专业场景。

EVI 4 mini:面向对话系统的轻量级语音代理

除了 Octave 2,Hume AI 还推出了 EVI 4 mini ——一个集成 Octave 2 所有能力的语音到语音交互接口。

特点如下:

  • 支持上述 11 种语言的实时语音交互
  • 延迟极低,适合构建流畅对话体验
  • 可与外部大语言模型(LLM)结合使用,实现完整语音对话链路

示例:开发者可用 EVI 4 mini 快速搭建一个多语言翻译助手——用户说出一句话,系统识别语言、调用 LLM 翻译、再用目标语言和指定音色朗读。

⚠️ 注意:EVI 4 mini 尚未具备自主生成回复内容的能力(即无内置 LLM),需通过 API 接入第三方模型(如 GPT、Claude 等)来完成语义理解与生成。

完整版 EVI 将在未来发布。

如何访问?

你现在就可以开始体验:

接下来几周,Hume AI 将陆续发布:

  • 更多语言支持
  • 语音转换与音素编辑功能的正式开放
  • 第三方基准评估报告
© 版权声明

相关文章

暂无评论

none
暂无评论...