谷歌 Gemini 更新:支持音频文件、搜索新增五语种、NotebookLM 可生成多样化报告

早报3个月前发布 小马良
180 0

谷歌近日对其 AI 产品线进行三项重要升级,进一步拓展 Gemini 应用搜索 AI 模式 与 NotebookLM 的能力边界。此次更新涵盖多模态支持、语言扩展与内容生成形式创新,显著提升用户在研究、学习与跨语言交互中的体验。

Gemini 应用正式支持音频文件上传

这是自 Gemini 推出以来,用户呼声最高的功能之一。谷歌实验室与 Gemini 副总裁 Josh Woodward 在社交媒体确认,Gemini 现已支持音频文件输入

谷歌 Gemini 更新:支持音频文件、搜索新增五语种、NotebookLM 可生成多样化报告

支持场景:

  • 上传会议录音、讲座、播客或语音笔记;
  • 让 Gemini 自动转录并总结内容;
  • 提问关于音频内容的问题(如“这段会议中提到了哪些待办事项?”)。

文件限制:

用户类型单日音频时长提示次数文件数量
免费用户最多 10 分钟5 次最多 10 个文件(含 ZIP 内容)
AI Pro / Ultra 用户最长 3 小时无明确限制最多 10 个文件

支持常见音频格式(MP3、WAV、M4A 等),并可解析 ZIP 压缩包中的媒体文件。

📌 Note:NotebookLM 早已支持音频分析,定位为研究工具;此次更新将该能力引入主 Gemini 应用,意味着更广泛的用户可访问。

Gemini 搜索 AI 模式新增五种语言

借助 Gemini 2.5 与搜索的深度整合,谷歌搜索的 AI 模式(AI Mode)现已支持五种新语言:

  • 印地语(Hindi)
  • 印尼语(Indonesian)
  • 日语(Japanese)
  • 韩语(Korean)
  • 巴西葡萄牙语(Portuguese - Brazil)

这意味着使用这些语言的用户现在可以:

  • 以母语提出复杂问题;
  • 获得基于网络深度分析的回答;
  • 在不切换语言的情况下进行深入探索。

谷歌表示,此次扩展旨在“让更多人以首选语言参与 AI 驱动的信息获取”。

谷歌 Gemini 更新:支持音频文件、搜索新增五语种、NotebookLM 可生成多样化报告

NotebookLM 支持多种语气与风格的报告生成

作为面向研究与学习的 AI 工具,NotebookLM 此次获得重要功能增强:支持自定义报告的语气、结构与风格

谷歌 Gemini 更新:支持音频文件、搜索新增五语种、NotebookLM 可生成多样化报告

✅ 新增能力:

  • 多样化输出格式
    • 学习指南
    • 简讯文档
    • 博客文章
    • 闪卡
    • 测验(含解释功能)
  • 风格控制:用户可指定报告语气,如“正式”、“通俗”、“批判性”或“教育向”;
  • 结构自定义:调整章节划分、重点强调方式;
  • 多语言支持:可在超过 80 种语言中生成报告。

示例:上传一篇科研论文后,你可以要求生成一份“面向高中生的通俗版博客文章”,或一份“用于复习的闪卡集”。

该功能已于近期推送,谷歌确认“将在本周末实现 100% 可用”。

近期 Gemini 生态持续更新

过去一个月,谷歌在 AI 功能上密集迭代:

时间更新内容
8 月Gemini 开始记忆用户偏好与历史对话,提供更个性化响应
8 月免费用户开放访问 Vids(Workspace 视频生成工具)
9 月Google 相册集成 Veo 3,支持从静态图片生成 4 秒无声视频

这些更新表明,谷歌正加速将生成式 AI 深度融入其核心产品矩阵。

© 版权声明

相关文章

暂无评论

none
暂无评论...