谷歌翻译上线实时语音翻译:基于 Gemini 2.5 Flash Audio,支持 70 种语言

早报1天前发布 小马良
7 0

谷歌为其 Gemini 音频模型 推出重大更新,并率先集成到 谷歌翻译应用 中,带来一项真正实用的实时语音到语音翻译能力。这项功能专为耳机场景设计,目标很简单:让你在现实世界中“听见”翻译后的声音

谷歌翻译上线实时语音翻译:基于 Gemini 2.5 Flash Audio,支持 70 种语言

无论你是在国外听讲座、与当地人交谈,还是在多语种会议中旁听,只需戴上耳机,系统就能将周围语音实时转换为你理解的语言,并以自然的人声播放。

两种使用模式,覆盖多类场景

持续聆听模式(Continuous Listening)

  • 适用于单向接收信息的场景:讲座、导览、小组讨论;
  • 同时识别多种语言,并统一翻译为你设定的目标语言;
  • 无需操作手机,全程通过耳机收听。

双向对话模式(Two-Way Conversation)

  • 专为两人面对面交流设计;
  • 自动识别说话人身份与语言:
    • 对方说印地语 → 你在耳机中听到英语;
    • 你用英语回复 → 手机外放印地语翻译;
  • 语言切换即时、无缝,无需手动选择。

关键技术亮点:不止翻译,更像“人”

风格迁移(Style Transfer)

  • 翻译语音模仿原说话者的语速、语调与节奏
  • 避免机械合成感,让对话更自然、情感更连贯;
  • 例如:急促的说话 → 翻译也快;温柔的语气 → 翻译也柔和。

强噪音抑制

  • 在嘈杂街道、餐厅、机场等环境中仍能清晰拾音;
  • 结合波束成形与 AI 降噪,确保输入语音质量。

多语言自动识别

  • 支持 70+ 种语言,覆盖 2000+ 语言对
  • 无需预设语言,系统自动检测正在说的语言并开始翻译;
  • 一次会话中可混合多种语言(如中英法交替),系统仍能正确处理。

模型升级:Gemini 2.5 Flash Native Audio

此次功能的核心是全新 Gemini 2.5 Flash Native Audio 模型,它不仅用于翻译,还将驱动 Gemini Live、Search Live、Vertex AI 等谷歌产品。

相比前代,它在三个关键维度实现提升:

改进点说明用户受益
函数调用精度外部工具调用准确率从 84% → 90%可在对话中实时获取天气、汇率、航班等数据,无需中断
多轮对话记忆记住上下文,保持话题连贯对话不再“前言不搭后语”,更像真人交流
低延迟音频处理优化端到端语音流水线从说话到听到翻译,延迟显著降低

该模型专为实时语音交互设计,强调低延迟、高鲁棒性与上下文一致性。

可用性与部署计划

  • 当前可用
    • 平台:Android
    • 地区:美国、墨西哥、印度
  • 即将推出
    • iOS 支持
    • 更多国家与语言
  • 使用方式
    1. 更新谷歌翻译应用
    2. 连接耳机
    3. 点击“实时翻译”按钮
    4. 选择模式(持续聆听 / 双向对话)

不止于翻译:Gemini Audio 的生态扩展

新模型将逐步集成至:

  • Google AI Studio:开发者可调用音频模型 API
  • Vertex AI:企业级语音智能体构建平台
  • Gemini Live:支持更自然的语音头脑风暴
  • Search Live:实时语音问答助手
© 版权声明

相关文章

暂无评论

none
暂无评论...