谷歌翻译上线实时语音翻译：基于 Gemini 2.5 Flash Audio，支持 70 种语言

早报3个月前发布小马良

31 0

谷歌为其 Gemini 音频模型 推出重大更新，并率先集成到 谷歌翻译应用 中，带来一项真正实用的实时语音到语音翻译能力。这项功能专为耳机场景设计，目标很简单：让你在现实世界中“听见”翻译后的声音。

谷歌翻译上线实时语音翻译：基于 Gemini 2.5 Flash Audio，支持 70 种语言

无论你是在国外听讲座、与当地人交谈，还是在多语种会议中旁听，只需戴上耳机，系统就能将周围语音实时转换为你理解的语言，并以自然的人声播放。

两种使用模式，覆盖多类场景

持续聆听模式（Continuous Listening）

适用于单向接收信息的场景：讲座、导览、小组讨论；
可同时识别多种语言，并统一翻译为你设定的目标语言；
无需操作手机，全程通过耳机收听。

双向对话模式（Two-Way Conversation）

专为两人面对面交流设计；
自动识别说话人身份与语言：
- 对方说印地语 → 你在耳机中听到英语；
- 你用英语回复 → 手机外放印地语翻译；
语言切换即时、无缝，无需手动选择。

关键技术亮点：不止翻译，更像“人”

风格迁移（Style Transfer）

翻译语音模仿原说话者的语速、语调与节奏；
避免机械合成感，让对话更自然、情感更连贯；
例如：急促的说话 → 翻译也快；温柔的语气 → 翻译也柔和。

强噪音抑制

在嘈杂街道、餐厅、机场等环境中仍能清晰拾音；
结合波束成形与 AI 降噪，确保输入语音质量。

多语言自动识别

支持 70+ 种语言，覆盖 2000+ 语言对；
无需预设语言，系统自动检测正在说的语言并开始翻译；
一次会话中可混合多种语言（如中英法交替），系统仍能正确处理。

模型升级：Gemini 2.5 Flash Native Audio

此次功能的核心是全新 Gemini 2.5 Flash Native Audio 模型，它不仅用于翻译，还将驱动 Gemini Live、Search Live、Vertex AI 等谷歌产品。

相比前代，它在三个关键维度实现提升：

改进点	说明	用户受益
函数调用精度	外部工具调用准确率从 84% → 90%	可在对话中实时获取天气、汇率、航班等数据，无需中断
多轮对话记忆	记住上下文，保持话题连贯	对话不再“前言不搭后语”，更像真人交流
低延迟音频处理	优化端到端语音流水线	从说话到听到翻译，延迟显著降低

该模型专为实时语音交互设计，强调低延迟、高鲁棒性与上下文一致性。

可用性与部署计划

当前可用：
- 平台：Android
- 地区：美国、墨西哥、印度
即将推出：
- iOS 支持
- 更多国家与语言
使用方式：
1. 更新谷歌翻译应用
2. 连接耳机
3. 点击“实时翻译”按钮
4. 选择模式（持续聆听 / 双向对话）

不止于翻译：Gemini Audio 的生态扩展

新模型将逐步集成至：

Google AI Studio：开发者可调用音频模型 API
Vertex AI：企业级语音智能体构建平台
Gemini Live：支持更自然的语音头脑风暴
Search Live：实时语音问答助手

早报 # 实时语音翻译 # 谷歌翻译

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Adobe 为 Express 和 Photoshop 推出新版 AI 助手

Adobe 为 Express 和 Photoshop 推出新版 AI 助手

早报 # Adobe # Photoshop

4个月前

0160

Excel中的Copilot迎来重大升级：无需选中数据也能理解你的意图

Excel中的Copilot迎来重大升级：无需选中数据也能理解你的意图

早报 # Copilot # Excel

9个月前

01410

谷歌发布全新音乐模型 Lyria 3：已集成到Gemini，输入文字或图片，30 秒生成原创音乐

谷歌发布全新音乐模型 Lyria 3：已集成到Gemini，输入文字或图片，30 秒生成原创音乐

早报语音模型 # Lyria 3 # 谷歌 # 音乐模型

3周前

0170

抢先体验！谷歌 Gemini 2.5 Pro 预览版正式上线开发者平台

抢先体验！谷歌 Gemini 2.5 Pro 预览版正式上线开发者平台

早报 # Gemini 2.5 Pro # 谷歌

9个月前

03300

暂无评论

none

暂无评论...