Hume AI推出了首个理解其所说内容的文本转语音系统Octave

语音模型1年前发布小马良

275 0

Hume 推出了 Octave（全能文本和语音引擎），这是首个专为文本转语音设计的大语言模型（LLM）。与传统文本转语音（TTS）系统不同，Octave 不仅能够“朗读”文字，还能真正理解单词在上下文中的含义。这种突破性技术让 Octave 能够生成更自然、更富有表现力的语音，解锁了全新的表达方式。可惜是目前并不支持多语言。

地址：https://www.hume.ai/text-to-speech

Octave 的核心优势

Octave 是一种先进的语音语言模型，经过训练后能够合成语音并预测音调、节奏和音色。它能够根据上下文推断何时低声耳语、何时高声欢呼，或何时冷静地解释事实。

Octave 通过理解剧本或提示中的情节转折、情感线索和角色特征，将这些信息转化为生动逼真的语音，就像一位专业的人类演员在表演一样。

功能亮点

1. 更自然、上下文感知的语音生成

Octave 可以根据输入的文本生成连贯且自然的语音，不仅限于简单的单词发音，还能捕捉到细微的情感变化。这使得 Octave 在生成对话、故事讲述或复杂叙述时表现出色。

2. 通过提示创建个性化声音

无论是代词、缩写还是特定词汇，Octave 都能自动解析并生成符合预期的声音。用户还可以通过 Voice Design 功能提供详细的描述来进一步引导 Octave，例如：

“耐心、富有同理心的顾问，带有 ASMR 声音”
“戏剧性的中世纪骑士”
“中年好莱坞电影预告片旁白”

如果不想花时间设计声音，也可以直接在 Playground 中即时生成一个新声音，只需点击“生成”即可。

3. 情绪与风格的灵活调整

Octave 支持通过指令调整语音的情绪和风格。例如，可以让 Octave 用兴奋的语气朗读一段新闻，或者用悲伤的语气演绎一段独白。这种灵活性使其非常适合各种应用场景，从教育到娱乐。

4. 即将推出的语音克隆功能

Octave 还计划推出语音克隆功能，只需短短 5 秒的音频样本即可复制真实人类的声音。团队正在努力确保该功能的安全性，并将在未来几周内正式上线。

性能评估

为了验证 Octave 的性能，Hume 开展了一项盲法比较研究，邀请了 180 名人类评分员参与。研究中，Octave 和行业领先的 ElevenLabs TTS 系统在以下三个关键指标上进行了对比：

音频质量：Octave 在 71.6% 的试验中胜出。
自然度：Octave 在 51.7% 的试验中表现更佳。
与提示的匹配程度：Octave 在 57.7% 的试验中更符合用户的期望。

这些结果显示，Octave 不仅在音频质量和自然度方面表现出色，还能更好地遵循用户提供的详细提示。

Expressive TTS Arena：公开评估平台

除了内部测试，Hume 还推出了 Expressive TTS Arena（arena.hume.ai），这是一个面向公众的开放评估平台。该平台旨在测试和比较现代 TTS 系统在处理长篇、复杂和富有表现力的内容时的表现。

与传统的 TTS 测试工具相比，Expressive TTS Arena 更注重评估模型在真实场景中的表现，例如如何处理细致入微的情感、创意内容以及复杂的多角色对话。任何人都可以参与其中，帮助推动 TTS 技术的发展。

Octave 的应用场景

Octave 的多功能性和表现力使其适用于多种场景，包括但不限于：

有声书制作：生成高质量的叙事语音。
虚拟助手：打造个性化的语音交互体验。
游戏与影视配音：为角色赋予独特的声音和情感。
教育与培训：提供生动的教学材料。

未来发展计划

Hume 将继续优化 Octave 的性能，重点改进以下几个方面：

多语言支持：虽然目前主要聚焦英语，但 Octave 已经能够流利使用西班牙语，未来将扩展至更多语言。
情绪与风格控制：进一步增强对不同情绪和风格的支持。
多角色对话：实现多位说话者之间的流畅切换。

语音模型 # Hume AI # Octave # TTS

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

Liquid AI 发布 LFM2-Audio：一个轻量级、端到端的音频-文本基础模型

语音模型 # LFM2-Audio # Liquid AI

6个月前

01640

西北工业大学开源语音理解模型OSUM

西北工业大学开源语音理解模型OSUM

语音模型 # OSUM # 西北工业大学 # 语音理解模型

1年前

04700

Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

Stability AI发布可在智能手机运行的音频生成模型Stable Audio Open Small

语音模型 # Stability AI # Stable Audio Open Small

11个月前

02220

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

文本转语音模型Kokoro-82M：8200万参数，支持多语言和多声音选项

语音模型 # Kokoro-82M # TTS

1年前

03,5420

暂无评论

none

暂无评论...