Grok Voice Agent API 上线:支持多语言、实时工具调用与低延迟语音交互

xAI 正式推出 Grok Voice Agent API,向开发者开放其在 Grok 移动应用及特斯拉车载系统中使用的语音交互技术。该 API 支持构建能实时对话、调用工具、搜索网络并流利使用数十种语言的语音智能体。

Grok Voice Agent API 上线:支持多语言、实时工具调用与低延迟语音交互

技术架构:全栈自研,端到端优化

Grok Voice 的语音技术栈由 xAI 从零构建,包括:

  • 语音活动检测(VAD)
  • 音频分词器
  • 端到端语音识别与合成模型

这种全栈控制使团队能精细优化每个环节,在延迟、准确率与自然度之间取得平衡。

性能表现(基于公开基准):

  • 在 Big Bench Audio(主流语音推理基准)中排名第一;
  • 平均首次音频响应时间 <1 秒
  • 据 xAI 数据,响应速度约为主要竞品的 5 倍(注:需独立验证)。

核心能力

1. 多语言支持

  • 支持数十种语言的语音输入与输出;
  • 能自动识别用户语言并以相同语言回应
  • 支持对话中无缝切换语言
  • 可通过系统提示强制指定响应语言;
  • 在盲测中,用户普遍认为其在发音、口音、韵律方面优于 OpenAI Realtime API。

2. 实时工具调用与搜索

  • 智能体可调用自定义工具(如查询数据库、控制设备);
  • 内置对 X(原 Twitter)及全网的实时搜索能力
  • 以特斯拉为例:Grok 可访问车辆状态、规划路线、搜索 X 上的旅行推荐,并生成完整行程——全程在数秒内完成。

3. 自然语音输出

  • 提供三种预设声音:Ara、Eve、Leo
  • 针对专业领域(如医疗、金融、法律)优化术语发音;
  • 支持通过文本提示插入听觉情感标记,如 [whisper][sigh][laugh],增强交互真实感。

集成与兼容性

  • 兼容 OpenAI Realtime API 协议,现有开发者可平滑迁移;
  • 提供 xAI LiveKit 官方插件,简化 WebRTC 集成;
  • 内置语音游乐场(Voice Playground),可在浏览器中实时试听不同声音与语言组合。

定价与计费

采用按连接时长计费模式:

  • $0.05 / 分钟(约 ¥0.36/分钟);
  • 无请求次数、语音长度或语言种类附加费用;
  • 定价结构与 OpenAI Realtime API 相比更具成本透明度。

未来路线图

xAI 计划在未来几周内推出:

  • 独立 TTS(文本转语音)与 STT(语音转文本)端点,支持更灵活的集成;
  • 新一代音频模型,进一步优化发音质量与端到端延迟
© 版权声明

相关文章

暂无评论

none
暂无评论...