Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

语音模型3个月前发布小马良

31 0

xAI 正式推出 Grok Voice Agent API，向开发者开放其在 Grok 移动应用及特斯拉车载系统中使用的语音交互技术。该 API 支持构建能实时对话、调用工具、搜索网络并流利使用数十种语言的语音智能体。

官方介绍：https://x.ai/news/grok-voice-agent-api
API ：https://console.x.ai/team/default/voice

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

技术架构：全栈自研，端到端优化

Grok Voice 的语音技术栈由 xAI 从零构建，包括：

语音活动检测（VAD）
音频分词器
端到端语音识别与合成模型

这种全栈控制使团队能精细优化每个环节，在延迟、准确率与自然度之间取得平衡。

性能表现（基于公开基准）：

在 Big Bench Audio（主流语音推理基准）中排名第一；
平均首次音频响应时间 <1 秒；
据 xAI 数据，响应速度约为主要竞品的 5 倍（注：需独立验证）。

核心能力

1. 多语言支持

支持数十种语言的语音输入与输出；
能自动识别用户语言并以相同语言回应；
支持对话中无缝切换语言；
可通过系统提示强制指定响应语言；
在盲测中，用户普遍认为其在发音、口音、韵律方面优于 OpenAI Realtime API。

2. 实时工具调用与搜索

智能体可调用自定义工具（如查询数据库、控制设备）；
内置对 X（原 Twitter）及全网的实时搜索能力；
以特斯拉为例：Grok 可访问车辆状态、规划路线、搜索 X 上的旅行推荐，并生成完整行程——全程在数秒内完成。

3. 自然语音输出

提供三种预设声音：Ara、Eve、Leo；
针对专业领域（如医疗、金融、法律）优化术语发音；
支持通过文本提示插入听觉情感标记，如 [whisper]、[sigh]、[laugh]，增强交互真实感。

集成与兼容性

兼容 OpenAI Realtime API 协议，现有开发者可平滑迁移；
提供 xAI LiveKit 官方插件，简化 WebRTC 集成；
内置语音游乐场（Voice Playground），可在浏览器中实时试听不同声音与语言组合。

定价与计费

采用按连接时长计费模式：

$0.05 / 分钟（约 ¥0.36/分钟）；
无请求次数、语音长度或语言种类附加费用；
定价结构与 OpenAI Realtime API 相比更具成本透明度。

未来路线图

xAI 计划在未来几周内推出：

独立 TTS（文本转语音）与 STT（语音转文本）端点，支持更灵活的集成；
新一代音频模型，进一步优化发音质量与端到端延迟。

语音模型 # Grok Voice Agent

文章版权归作者所有，未经允许请勿转载。

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

语音模型 # Llama-3b # Orpheus TTS # TTS

1年前

02470

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

语音模型 # B站 # IndexTTS2

7个月前

05670

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

语音模型 # Fun-Audio-Chat # 通义百聆

3个月前

0290

北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS

语音模型 # Muyan-TTS # TTS模型

11个月前

03930

暂无评论

暂无评论...

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

技术架构：全栈自研，端到端优化

核心能力

1. 多语言支持

2. 实时工具调用与搜索

3. 自然语音输出

集成与兼容性

定价与计费

未来路线图

Meta发布SAM Audio：首个支持文本、视觉、时间提示的统一音频分离模型

Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

相关文章

Orpheus TTS：基于 Llama-3b 构建的先进文本转语音（TTS）模型

B站推出IndexTTS2：自回归 TTS 模型的持续时间控制与情感表达新突破

通义百聆发布 Fun-Audio-Chat：8B 端到端语音模型，延迟更低、效率更高

北京沐言智语科技开源专为播客场景优化的可训练TTS模型 Muyan-TTS

暂无评论

文章

新Anthropic 发布 Claude Code Channels：原生支持 Telegram/Discord，无需自建即可实现“随时随地”代码协作

LTX-2.3 提示词终极指南：从“抽卡”到“导演”，解锁原生视频生成的掌控力

Stable Diffusion 中的CFG Scale是什么？

英伟达 GDC 重磅更新：ComfyUI 新增“应用模式”与 RTX 超分，本地 AI 视频生成效率提升 2.5 倍

MiniMax 发布 M2.7：首个实现“自我进化”的 Agent 模型，研发效率提升 50%

新智谱 GLM-5-Turbo 闭源引发担忧？官方回应：别慌，GLM-5.1 即将开源

S.H.I.T

OpenMAIC

悟空

Tripo

OpenCut

CanIRun.ai

Grok Voice Agent API 上线：支持多语言、实时工具调用与低延迟语音交互

技术架构：全栈自研，端到端优化

核心能力

1. 多语言支持

2. 实时工具调用与搜索

3. 自然语音输出

集成与兼容性

定价与计费

未来路线图

Meta发布SAM Audio：首个支持文本、视觉、时间提示的统一音频分离模型

Chatterbox-Turbo 发布：3.5 亿参数、一步解码、支持副语言标签的高效 TTS 模型

相关文章

文章

标签云

网址

S.H.I.T

OpenMAIC

悟空

Tripo

OpenCut

CanIRun.ai