谷歌正式推出 Gemini 2.5 语音进阶功能，AI 对话迈入自然化新阶段

231 0

谷歌正式发布 Gemini 2.5 的全新语音对话与生成能力，标志着 AI 在语音理解和互动方面取得重大进展。该版本不仅支持超过 24 种语言的即时语音对话，还引入多项创新功能，包括情感识别、多语种混合对话、语音影片理解等，为开发者和用户带来前所未有的交互体验。

目前，Gemini 2.5 已集成至 NotebookLM 的语音概览 和 Project Astra 等谷歌产品中，进一步推动语音 AI 在实际场景中的落地应用。

Gemini 2.5 Flash Preview 引入了原生语音对话功能，具备出色的表达能力和自然的语调韵律，能够实现接近人类水平的对话体验：

这些特性使得 Gemini 2.5 能够胜任从新闻播报、诗歌朗诵到角色扮演等多种语音生成需求。

Gemini 2.5 的一大亮点是其情感对话模型，能够根据用户的语调变化做出相应回应。相同文字在不同语气下可以触发不同的对话路径，使 AI 更加贴近真实的人际交流。

此外，系统经过训练，具备识别并忽略背景噪音、环境对话的能力，仅在合适时机进行回应，提升对话效率与沉浸感。

Gemini 2.5 还支持语音与视频同步理解，可在观看视频的同时进行语音对话。例如：

这一功能极大拓展了 AI 在教育、娱乐和企业沟通中的应用场景。

Gemini 2.5 支持超过 24 种语言的语音对话，并且可以在同一句话中自由切换多种语言，满足跨文化沟通需求。

不过目前尚未包含普通话或粤语，预计将在后续更新中逐步完善。

除了语音理解，Gemini 2.5 在语音生成方面也实现了飞跃：

这使得开发者可以轻松创建引人入胜的音频内容，如公告、有声书、电子游戏对话等。

为满足不同使用场景，谷歌提供两个版本供开发者选择：

版本	适用场景	特点
Gemini 2.5 Pro Preview	高质量复杂任务	最佳语音理解和生成效果，适合对品质要求高的项目
Gemini 2.5 Flash Preview	日常高频应用	成本效益更高，适合日常交互、内容生成等轻量级用途