Hume AI 发布 Octave 2：更智能、多语言、低延迟的语音合成系统

111 0

Hume AI 正式推出 Octave 2 ——其下一代文本到语音（TTS）模型的重大升级版本。作为“语音语言模型”（Speech Language Model, SLM）架构的延续，Octave 2 不仅在音质、速度和语言支持上全面进化，还引入了两项前所未有的功能：语音转换 和 直接音素编辑。

Hume 推出新一代情感语音模型 EVI 3，让 AI 更懂你的情绪
Hume AI推出了首个理解其所说内容的文本转语音系统Octave

核心升级一览

特性	Octave 2 改进
情感理解能力	更深入捕捉语调、节奏与情绪变化
支持语言数量	扩展至 11 种：阿拉伯语、英语、法语、德语、印地语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语
推理延迟	≤200ms，比前代快 40%
新增功能	语音转换、音素级编辑
发音准确性	显著提升对生僻词、数字、符号和重复内容的处理
定价	仅为 Octave 1 的一半；专用部署下可低至每分钟音频不到 1 美分

什么是语音语言模型？

Octave 系列基于一种新型 AI 架构——语音语言模型（SLM），它不同于传统 TTS 系统。

传统 TTS 模型主要关注“把文字读出来”，而 SLM 能理解：

文本的情感意图（是兴奋？悲伤？还是秘密低语？）
句子结构如何影响语气起伏
如何还原说话者的个性特征，而不仅是声音音色

这使得 Octave 2 能够生成更具表现力、更自然的人类级语音，并准确再现特定说话风格。

多语言能力：从即时克隆到跨语言口音预测

Octave 2 当前支持 11 种主要语言，包括：

阿拉伯语｜英语｜法语｜德语｜印地语｜意大利语｜日语｜韩语｜葡萄牙语｜俄语｜西班牙语

所有语音均可通过“即时克隆”实现个性化声音定制——仅需一段母语者 15 秒的音频样本，即可创建专属音色。

更进一步，Octave 2 具备跨语言口音建模能力。例如：

使用日语母语者的音色生成英语语音时，系统会自动模拟该说话者说英语时可能带有的日语口音。
同样，韩语音色用于法语输出时也会保留原声者的发音习惯特征。

这一能力让本地化配音、角色语音设计等场景更加真实可信。

未来几个月内，Hume AI 计划将支持语言扩展至 至少 20 种。

极致性能：低延迟 + 高效率

Octave 2 是目前同类模型中响应最快的产品之一，端到端音频生成时间控制在 200ms 以内。

这不是以牺牲质量换来的提速。背后的技术突破在于：

与 Sambanova 合作，针对 Octave 2 的新架构开发了专用推理栈
部署于全球最先进的 LLM 推理芯片平台
实现高效并行处理，显著降低单位计算成本

结果是：性能更强，价格更低。
Octave 2 的定价仅为前代的一半，在专用部署模式下，每分钟合成音频成本可降至 不足 1 美分。

这意味着它可以真正支撑大规模应用：游戏 NPC 对话、客服机器人、有声书生成、教育内容本地化等。

两大首创功能：语音转换与音素编辑

🔁 语音转换（Voice Conversion）

Octave 2 可将一段语音的“音色”替换为另一个目标声音，同时保留原始语音的语调、节奏和情感表达细节。

应用场景包括：

影视配音：用原演员的声音为其角色生成其他语言版本台词
角色重塑：AI 演员代班录制补录内容，保持声音一致性
内容修改：人工调整 AI 输出后仍维持原有语音风格

示例：输入一段英文语音 + 目标韩语音色 → 输出由该韩语音色“说出”的相同语调和节奏的英文内容。

该功能即将上线平台。

🔤 直接音素编辑（Phoneme Editing）

这是 Octave 2 最具实验性的创新之一：允许用户对语音的底层音素序列进行精细操控。

你可以：

修改某个单词的发音方式（如将 “Nike” 读作 /niːki/ 还是 /naɪk/）
调整重音位置或延长特定音节
在不改变整体语义的前提下创造新词发音

示例：将经典电影台词中的 “Lebowski” 替换为虚构词 “leviaso”，并保持原句语调一致。

这种粒度的操作仅靠文本输入几乎无法完成。音素编辑赋予创作者前所未有的控制力，尤其适用于品牌命名朗读、影视特效语音、游戏角色命名等专业场景。

EVI 4 mini：面向对话系统的轻量级语音代理

除了 Octave 2，Hume AI 还推出了 EVI 4 mini ——一个集成 Octave 2 所有能力的语音到语音交互接口。

特点如下：

支持上述 11 种语言的实时语音交互
延迟极低，适合构建流畅对话体验
可与外部大语言模型（LLM）结合使用，实现完整语音对话链路

示例：开发者可用 EVI 4 mini 快速搭建一个多语言翻译助手——用户说出一句话，系统识别语言、调用 LLM 翻译、再用目标语言和指定音色朗读。

⚠️ 注意：EVI 4 mini 尚未具备自主生成回复内容的能力（即无内置 LLM），需通过 API 接入第三方模型（如 GPT、Claude 等）来完成语义理解与生成。

完整版 EVI 将在未来发布。

如何访问？

你现在就可以开始体验：

Octave 2（文本到语音）：访问 Hume AI Playground 或使用 API
EVI 4 mini（语音到语音）：同样已在Playground和 API中开放测试

接下来几周，Hume AI 将陆续发布：

更多语言支持
语音转换与音素编辑功能的正式开放
第三方基准评估报告

文章版权归作者所有，未经允许请勿转载。

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

语音模型 # Aero-1-Audio # LMMs-Lab # 语音识别

11个月前

06600

北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS

语音模型 # Muyan-TTS # TTS模型

11个月前

03970

谷歌发布 Lyria 3 Pro：谷歌音乐生成迈入“完整曲目”时代，最长支持 3 分钟

早报语音模型 # Lyria 3 Pro # 谷歌

6天前

0280

新LongCat-AudioDiT：美团开源的端到端语音合成模型，直接在波形潜空间生成高保真语音

语音模型 # LongCat-AudioDiT # TTS # 美团

12小时前

050

暂无评论

暂无评论...

Hume AI 发布 Octave 2：更智能、多语言、低延迟的语音合成系统

核心升级一览

什么是语音语言模型？

多语言能力：从即时克隆到跨语言口音预测

极致性能：低延迟 + 高效率

两大首创功能：语音转换与音素编辑

🔁 语音转换（Voice Conversion）

🔤 直接音素编辑（Phoneme Editing）

EVI 4 mini：面向对话系统的轻量级语音代理

如何访问？

阿里发布Qwen3-LiveTranslate-Flash ：全球首个视、听、说全模态实时同传大模型

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

相关文章

LMMs-Lab发布轻量高效音频模型Aero-1-Audio：擅长长语音ASR与多模态任务

北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS

谷歌发布 Lyria 3 Pro：谷歌音乐生成迈入“完整曲目”时代，最长支持 3 分钟

新LongCat-AudioDiT：美团开源的端到端语音合成模型，直接在波形潜空间生成高保真语音

暂无评论

文章

智谱突袭发布GLM-5.1：编码能力暴涨 30%，直逼 Claude Opus，手把手教你接入 Claude Code 与 OpenClaw

新阿里通义千问发布 Qwen3.5-Omni：全模态原生大模型，215 项 SOTA 碾压 Gemini 3.1 Pro

ComfyUI 原生支持 Wan2.2 Fun：首尾帧控制与多模态视频生成全面集成

新Kimi 会员计费大升级：告别“按次计数”，迎来“统一额度”时代

PaCo-RL：西安交大首创“一致性裁判”强化学习框架，让AI生成四张图也能保持角色与风格完美统

Cursor 推出 Composer 模型：让 AI 学会“自我总结”，轻松搞定长周期编程

OpenMAIC

ITELLOU

S.H.I.T

CoPaw

Tripo

Alaya Code

Hume AI 发布 Octave 2：更智能、多语言、低延迟的语音合成系统

核心升级一览

什么是语音语言模型？

多语言能力：从即时克隆到跨语言口音预测

极致性能：低延迟 + 高效率

两大首创功能：语音转换与音素编辑

🔁 语音转换（Voice Conversion）

🔤 直接音素编辑（Phoneme Editing）

EVI 4 mini：面向对话系统的轻量级语音代理

如何访问？

阿里发布Qwen3-LiveTranslate-Flash ：全球首个视、听、说全模态实时同传大模型

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

相关文章

文章

标签云

网址

OpenMAIC

ITELLOU

S.H.I.T

CoPaw

Tripo

Alaya Code