谷歌近日对其 AI 产品线进行三项重要升级,进一步拓展 Gemini 应用、搜索 AI 模式 与 NotebookLM 的能力边界。此次更新涵盖多模态支持、语言扩展与内容生成形式创新,显著提升用户在研究、学习与跨语言交互中的体验。
Gemini 应用正式支持音频文件上传
这是自 Gemini 推出以来,用户呼声最高的功能之一。谷歌实验室与 Gemini 副总裁 Josh Woodward 在社交媒体确认,Gemini 现已支持音频文件输入。

支持场景:
- 上传会议录音、讲座、播客或语音笔记;
- 让 Gemini 自动转录并总结内容;
- 提问关于音频内容的问题(如“这段会议中提到了哪些待办事项?”)。
文件限制:
| 用户类型 | 单日音频时长 | 提示次数 | 文件数量 |
|---|---|---|---|
| 免费用户 | 最多 10 分钟 | 5 次 | 最多 10 个文件(含 ZIP 内容) |
| AI Pro / Ultra 用户 | 最长 3 小时 | 无明确限制 | 最多 10 个文件 |
支持常见音频格式(MP3、WAV、M4A 等),并可解析 ZIP 压缩包中的媒体文件。
📌 Note:NotebookLM 早已支持音频分析,定位为研究工具;此次更新将该能力引入主 Gemini 应用,意味着更广泛的用户可访问。
Gemini 搜索 AI 模式新增五种语言
借助 Gemini 2.5 与搜索的深度整合,谷歌搜索的 AI 模式(AI Mode)现已支持五种新语言:
- 印地语(Hindi)
- 印尼语(Indonesian)
- 日语(Japanese)
- 韩语(Korean)
- 巴西葡萄牙语(Portuguese - Brazil)
这意味着使用这些语言的用户现在可以:
- 以母语提出复杂问题;
- 获得基于网络深度分析的回答;
- 在不切换语言的情况下进行深入探索。
谷歌表示,此次扩展旨在“让更多人以首选语言参与 AI 驱动的信息获取”。

NotebookLM 支持多种语气与风格的报告生成
作为面向研究与学习的 AI 工具,NotebookLM 此次获得重要功能增强:支持自定义报告的语气、结构与风格。

✅ 新增能力:
- 多样化输出格式:
- 学习指南
- 简讯文档
- 博客文章
- 闪卡
- 测验(含解释功能)
- 风格控制:用户可指定报告语气,如“正式”、“通俗”、“批判性”或“教育向”;
- 结构自定义:调整章节划分、重点强调方式;
- 多语言支持:可在超过 80 种语言中生成报告。
示例:上传一篇科研论文后,你可以要求生成一份“面向高中生的通俗版博客文章”,或一份“用于复习的闪卡集”。
该功能已于近期推送,谷歌确认“将在本周末实现 100% 可用”。
近期 Gemini 生态持续更新
过去一个月,谷歌在 AI 功能上密集迭代:
| 时间 | 更新内容 |
|---|---|
| 8 月 | Gemini 开始记忆用户偏好与历史对话,提供更个性化响应 |
| 8 月 | 免费用户开放访问 Vids(Workspace 视频生成工具) |
| 9 月 | Google 相册集成 Veo 3,支持从静态图片生成 4 秒无声视频 |
这些更新表明,谷歌正加速将生成式 AI 深度融入其核心产品矩阵。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















