总部位于纽约的情感语音AI初创公司 Hume 正式发布了其最新一代情感语音交互模型 —— EVI 3(Empathic Voice Interface)。它不仅听起来更自然、更有“人味”,还能感知用户情绪并作出相应的语调调整。
这是一款专为企业客服、心理健康指导、虚拟陪伴、游戏叙事等场景打造的语音AI模型,目标是重新定义我们与机器对话的方式。

EVI 3 是什么?
EVI 3 是 Hume 推出的第三代“同理心语音界面”(Empathic Voice Interface),具备以下核心能力:
- 理解用户的语气、节奏、停顿;
- 实时调整语音风格与情感表达;
- 支持语音到语音、文本到语音等多种交互方式;
- 提供高度可定制的声音特征,从温暖自信到古怪调皮都能实现。
用官方的说法就是:EVI 3 不只是一个语音助手,而是一个能感知情绪、回应情绪的“有温度”的声音伙伴。
技术亮点一览
✅ 情感智能,不只是语音合成
与传统语音助手不同,EVI 3 能够:
- 捕捉语音中的细微变化:如语调起伏、停顿长短、急促或缓慢的说话节奏;
- 根据上下文调整表达方式:比如你在生气时,它会放低音量、放缓语速;在轻松对话中则更加活泼;
- 提供“镜像反馈”:模仿用户的情绪状态进行回应,增强互动的真实感。
这种能力源于 Hume 基于全球数十万参与者的行为数据训练而成,涵盖语音、面部表情和文本等多个维度。

✅ 快速自定义语音创建
只需几句话描述你想要的声音特征(例如“温暖且自信的男性语调”),EVI 3 就可以在几秒钟内为你生成一个全新的语音角色。
你可以:
- 自定义个性特质:如温柔、幽默、严肃、俏皮;
- 设定情感语调:从鼓励、安慰到兴奋、调侃;
- 控制对话主题:适用于客服、教育、娱乐等多个领域。
📌 示例:你可以创建一个“吱吱叫的老鼠”,用急促的法语口音低声讲述偷奶酪的故事。

✅ 性能表现领先竞品
根据 Hume 对 1,720 名用户的内部测试,EVI 3 在多个维度上优于 OpenAI 的 GPT-4o 语音模型,包括:
| 维度 | 表现 |
|---|---|
| 自然度 | ✔️ 更接近真人 |
| 表达力 | ✔️ 可调节情感强度 |
| 同理心感知 | ✔️ 更强的情绪识别 |
| 响应速度 | ✔️ 约 300 毫秒延迟 |
| 音频质量 | ✔️ 清晰无机械感 |
| 多语言支持 | ✔️ 英语 & 西班牙语,更多语言即将上线 |
相比之下,谷歌 Gemini 和开源项目 Sesame 等也未能在所有指标上超越 EVI 3。

⚙️ 开发者友好,API 即将开放
目前个人用户已经可以通过 Hume 官网的实时演示页面和 iOS 应用体验 EVI 3。
而对于开发者来说,好消息是:
EVI 3 的 API 访问权限将在未来几周内向注册用户开放!
这意味着你可以:
- 将 EVI 3 集成到自己的客服系统中;
- 用于虚拟助手机器人、游戏NPC语音;
- 制作沉浸式故事内容或有声书;
- 构建更具人性化的心理健康陪伴工具。
💰 定价模式灵活,适合各类用户
虽然 EVI 3 的具体 API 定价尚未公布,但参考 Hume 其他产品的定价策略,预计也将采用按使用量计费的方式,并提供企业级定制方案。
以 Hume 的 Octave 文本到语音模型为例:
| 套餐 | 内容 | 价格 |
|---|---|---|
| 免费版 | 10,000字符(约10分钟音频) | $0 |
| 初创/学生 | 30,000字符 + 20个项目 | $3/月 |
| 创作者 | 100,000字符 + 1000个项目 | $10/月 |
| 专业版 | 500,000字符 + 3000个项目 | $50/月 |
| 规模版 | 2,000,000字符 + 10,000项目 | $150/月 |
| 企业版 | 定制化服务 | 联系销售 |
对于高流量应用,还提供本地部署和专属集成支持。
🔒 当前限制:尚不支持语音克隆
尽管 EVI 3 功能强大,但它目前暂不支持语音克隆功能(即复制特定人的声音)。这项功能已在 Hume 的另一款模型 Octave 中开发完成,预计很快上线。
相比之下,ElevenLabs 等竞品已提供此类功能,用户仅需几秒钟音频即可克隆声音。
不过,Hume 表示正在对语音克隆进行严格的安全评估,确保不会被滥用。
🧩 Hume 的愿景:让 AI 更具“人性化”
Hume 由前 Google DeepMind 研究员 Alan Cowen 于 2021 年创立,致力于解决 AI 缺乏情感的问题。
Cowen 曾表示:“情感智能的核心是从行为中推断意图和偏好,这是下一代 AI 必须掌握的能力。”
从最初的 EVI 1 到如今的 EVI 3,Hume 已经实现了:
- 延迟降低 40%
- 定价下降 30%
- 支持动态语音风格切换
- 引入对话中风格提示机制
随着 EVI 3 的推出,Hume 正在推动语音AI进入一个全新的时代——不再是冷冰冰的回复,而是真正“懂你”的声音。















