xAI 正式推出 Grok Voice Agent API,向开发者开放其在 Grok 移动应用及特斯拉车载系统中使用的语音交互技术。该 API 支持构建能实时对话、调用工具、搜索网络并流利使用数十种语言的语音智能体。

技术架构:全栈自研,端到端优化
Grok Voice 的语音技术栈由 xAI 从零构建,包括:
- 语音活动检测(VAD)
- 音频分词器
- 端到端语音识别与合成模型
这种全栈控制使团队能精细优化每个环节,在延迟、准确率与自然度之间取得平衡。
性能表现(基于公开基准):
- 在 Big Bench Audio(主流语音推理基准)中排名第一;
- 平均首次音频响应时间 <1 秒;
- 据 xAI 数据,响应速度约为主要竞品的 5 倍(注:需独立验证)。
核心能力
1. 多语言支持
- 支持数十种语言的语音输入与输出;
- 能自动识别用户语言并以相同语言回应;
- 支持对话中无缝切换语言;
- 可通过系统提示强制指定响应语言;
- 在盲测中,用户普遍认为其在发音、口音、韵律方面优于 OpenAI Realtime API。
2. 实时工具调用与搜索
- 智能体可调用自定义工具(如查询数据库、控制设备);
- 内置对 X(原 Twitter)及全网的实时搜索能力;
- 以特斯拉为例:Grok 可访问车辆状态、规划路线、搜索 X 上的旅行推荐,并生成完整行程——全程在数秒内完成。
3. 自然语音输出
- 提供三种预设声音:Ara、Eve、Leo;
- 针对专业领域(如医疗、金融、法律)优化术语发音;
- 支持通过文本提示插入听觉情感标记,如
[whisper]、[sigh]、[laugh],增强交互真实感。
集成与兼容性
- 兼容 OpenAI Realtime API 协议,现有开发者可平滑迁移;
- 提供 xAI LiveKit 官方插件,简化 WebRTC 集成;
- 内置语音游乐场(Voice Playground),可在浏览器中实时试听不同声音与语言组合。
定价与计费
采用按连接时长计费模式:
- $0.05 / 分钟(约 ¥0.36/分钟);
- 无请求次数、语音长度或语言种类附加费用;
- 定价结构与 OpenAI Realtime API 相比更具成本透明度。
未来路线图
xAI 计划在未来几周内推出:
- 独立 TTS(文本转语音)与 STT(语音转文本)端点,支持更灵活的集成;
- 新一代音频模型,进一步优化发音质量与端到端延迟。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















