Hume AI推出了首个理解其所说内容的文本转语音系统Octave

Hume 推出了 Octave(全能文本和语音引擎),这是首个专为文本转语音设计的大语言模型(LLM)。与传统文本转语音(TTS)系统不同,Octave 不仅能够“朗读”文字,还能真正理解单词在上下文中的含义。这种突破性技术让 Octave 能够生成更自然、更富有表现力的语音,解锁了全新的表达方式。可惜是目前并不支持多语言。

Octave 的核心优势

Octave 是一种先进的语音语言模型,经过训练后能够合成语音并预测音调、节奏和音色。它能够根据上下文推断何时低声耳语、何时高声欢呼,或何时冷静地解释事实。

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

Octave 通过理解剧本或提示中的情节转折、情感线索和角色特征,将这些信息转化为生动逼真的语音,就像一位专业的人类演员在表演一样。

功能亮点

1. 更自然、上下文感知的语音生成

Octave 可以根据输入的文本生成连贯且自然的语音,不仅限于简单的单词发音,还能捕捉到细微的情感变化。这使得 Octave 在生成对话、故事讲述或复杂叙述时表现出色。

2. 通过提示创建个性化声音

无论是代词、缩写还是特定词汇,Octave 都能自动解析并生成符合预期的声音。用户还可以通过 Voice Design 功能提供详细的描述来进一步引导 Octave,例如:

  • “耐心、富有同理心的顾问,带有 ASMR 声音”
  • “戏剧性的中世纪骑士”
  • “中年好莱坞电影预告片旁白”

如果不想花时间设计声音,也可以直接在 Playground 中即时生成一个新声音,只需点击“生成”即可。

3. 情绪与风格的灵活调整

Octave 支持通过指令调整语音的情绪和风格。例如,可以让 Octave 用兴奋的语气朗读一段新闻,或者用悲伤的语气演绎一段独白。这种灵活性使其非常适合各种应用场景,从教育到娱乐。

4. 即将推出的语音克隆功能

Octave 还计划推出语音克隆功能,只需短短 5 秒的音频样本即可复制真实人类的声音。团队正在努力确保该功能的安全性,并将在未来几周内正式上线。

性能评估

为了验证 Octave 的性能,Hume 开展了一项盲法比较研究,邀请了 180 名人类评分员参与。研究中,Octave 和行业领先的 ElevenLabs TTS 系统在以下三个关键指标上进行了对比:

  • 音频质量:Octave 在 71.6% 的试验中胜出。
  • 自然度:Octave 在 51.7% 的试验中表现更佳。
  • 与提示的匹配程度:Octave 在 57.7% 的试验中更符合用户的期望。

这些结果显示,Octave 不仅在音频质量和自然度方面表现出色,还能更好地遵循用户提供的详细提示。

Hume AI推出了首个理解其所说内容的文本转语音系统Octave Hume AI推出了首个理解其所说内容的文本转语音系统Octave

Expressive TTS Arena:公开评估平台

除了内部测试,Hume 还推出了 Expressive TTS Arena(arena.hume.ai),这是一个面向公众的开放评估平台。该平台旨在测试和比较现代 TTS 系统在处理长篇、复杂和富有表现力的内容时的表现。

Hume AI推出了首个理解其所说内容的文本转语音系统Octave

与传统的 TTS 测试工具相比,Expressive TTS Arena 更注重评估模型在真实场景中的表现,例如如何处理细致入微的情感、创意内容以及复杂的多角色对话。任何人都可以参与其中,帮助推动 TTS 技术的发展。

Octave 的应用场景

Octave 的多功能性和表现力使其适用于多种场景,包括但不限于:

  • 有声书制作:生成高质量的叙事语音。
  • 虚拟助手:打造个性化的语音交互体验。
  • 游戏与影视配音:为角色赋予独特的声音和情感。
  • 教育与培训:提供生动的教学材料。

未来发展计划

Hume 将继续优化 Octave 的性能,重点改进以下几个方面:

  • 多语言支持:虽然目前主要聚焦英语,但 Octave 已经能够流利使用西班牙语,未来将扩展至更多语言。
  • 情绪与风格控制:进一步增强对不同情绪和风格的支持。
  • 多角色对话:实现多位说话者之间的流畅切换。
© 版权声明

相关文章

暂无评论

none
暂无评论...