谷歌为其 Gemini 音频模型 推出重大更新,并率先集成到 谷歌翻译应用 中,带来一项真正实用的实时语音到语音翻译能力。这项功能专为耳机场景设计,目标很简单:让你在现实世界中“听见”翻译后的声音。

无论你是在国外听讲座、与当地人交谈,还是在多语种会议中旁听,只需戴上耳机,系统就能将周围语音实时转换为你理解的语言,并以自然的人声播放。
两种使用模式,覆盖多类场景
持续聆听模式(Continuous Listening)
- 适用于单向接收信息的场景:讲座、导览、小组讨论;
- 可同时识别多种语言,并统一翻译为你设定的目标语言;
- 无需操作手机,全程通过耳机收听。
双向对话模式(Two-Way Conversation)
- 专为两人面对面交流设计;
- 自动识别说话人身份与语言:
- 对方说印地语 → 你在耳机中听到英语;
- 你用英语回复 → 手机外放印地语翻译;
- 语言切换即时、无缝,无需手动选择。
关键技术亮点:不止翻译,更像“人”
风格迁移(Style Transfer)
- 翻译语音模仿原说话者的语速、语调与节奏;
- 避免机械合成感,让对话更自然、情感更连贯;
- 例如:急促的说话 → 翻译也快;温柔的语气 → 翻译也柔和。
强噪音抑制
- 在嘈杂街道、餐厅、机场等环境中仍能清晰拾音;
- 结合波束成形与 AI 降噪,确保输入语音质量。
多语言自动识别
- 支持 70+ 种语言,覆盖 2000+ 语言对;
- 无需预设语言,系统自动检测正在说的语言并开始翻译;
- 一次会话中可混合多种语言(如中英法交替),系统仍能正确处理。
模型升级:Gemini 2.5 Flash Native Audio
此次功能的核心是全新 Gemini 2.5 Flash Native Audio 模型,它不仅用于翻译,还将驱动 Gemini Live、Search Live、Vertex AI 等谷歌产品。
相比前代,它在三个关键维度实现提升:
| 改进点 | 说明 | 用户受益 |
|---|---|---|
| 函数调用精度 | 外部工具调用准确率从 84% → 90% | 可在对话中实时获取天气、汇率、航班等数据,无需中断 |
| 多轮对话记忆 | 记住上下文,保持话题连贯 | 对话不再“前言不搭后语”,更像真人交流 |
| 低延迟音频处理 | 优化端到端语音流水线 | 从说话到听到翻译,延迟显著降低 |
该模型专为实时语音交互设计,强调低延迟、高鲁棒性与上下文一致性。
可用性与部署计划
- 当前可用:
- 平台:Android
- 地区:美国、墨西哥、印度
- 即将推出:
- iOS 支持
- 更多国家与语言
- 使用方式:
- 更新谷歌翻译应用
- 连接耳机
- 点击“实时翻译”按钮
- 选择模式(持续聆听 / 双向对话)
不止于翻译:Gemini Audio 的生态扩展
新模型将逐步集成至:
- Google AI Studio:开发者可调用音频模型 API
- Vertex AI:企业级语音智能体构建平台
- Gemini Live:支持更自然的语音头脑风暴
- Search Live:实时语音问答助手
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















