谷歌“实时搜索”全球上线:Gemini 3.1 Flash Live 赋能,手机摄像头变身全能 AI 助手

早报2小时前发布 小马良
1 0

谷歌正在重新定义我们与物理世界的交互方式。周四,谷歌正式宣布将其 AI 驱动的“实时搜索” (Live Search) 功能扩展至全球 200 多个国家和地区,覆盖所有支持 AI 模式的语言。这意味着,无论身处何地,用户只需举起手机,就能通过摄像头和语音与谷歌进行自然、实时的多轮对话,获取眼前事物的即时解答。

谷歌“实时搜索”全球上线:Gemini 3.1 Flash Live 赋能,手机摄像头变身全能 AI 助手

此次全球扩张由谷歌最新的 Gemini 3.1 Flash Live 音频与语音模型驱动,标志着移动搜索从“关键词检索”正式迈入“视觉 - 语音沉浸式对话”的新纪元。

核心体验:所见即所问,所问即所答

“实时搜索”专为那些打字无法解决、需要即时反馈的场景而生。它打破了传统搜索“输入 - 等待 - 阅读”的线性流程,创造了全新的交互闭环:

1. 视觉上下文感知

  • 操作:打开谷歌 App,点击搜索栏下的“实时”图标,或直接在使用 Google Lens 时点击底部“实时”按钮。
  • 能力:将摄像头对准物体(如复杂的宜家家具、陌生的植物、故障的汽车引擎),AI 不仅能“看见”画面,还能理解其中的空间关系和细节。
  • 场景
    • “这个架子该怎么装?” -> AI 识别零件,逐步语音指导安装。
    • “这株植物为什么叶子黄了?” -> AI 分析叶片状态,给出养护建议。
    • “这道题怎么做?” -> AI 识别题目,引导解题思路而非直接给答案。

2. 自然多轮语音对话

  • 双向互动:用户无需打字,直接大声提问,AI 以自然的语音回复。
  • 连续追问:支持上下文联动的多轮对话。例如:“这是什么鸟?” -> “它吃什么?” -> “哪里能看到更多?”
  • 多语言原生支持:得益于 Gemini 3.1 Flash Live 的多语言能力,用户可用母语自由切换,无需手动设置语言。

3. 深度信息链接

  • 在语音互动的同时,屏幕下方会动态展示相关的网页链接、视频教程或购物选项,方便用户一键深入了解,实现“视听读”三位一体的信息获取。

技术引擎:Gemini 3.1 Flash Live

此次升级的核心在于谷歌全新的 Gemini 3.1 Flash Live 模型:

  • 超低延迟:专为实时流式交互设计,确保语音和视觉处理的毫秒级响应,对话流畅无卡顿。
  • 多模态融合:原生整合视觉编码与语音合成,能同时处理视频流和音频流,理解“画面中的声音”或“声音对应的画面”。
  • 全球适配:单一模型支持全球多种语言,无需为不同地区部署独立模型,大幅提升了扩展效率。
谷歌“实时搜索”全球上线:Gemini 3.1 Flash Live 赋能,手机摄像头变身全能 AI 助手

同步惊喜:谷歌实时翻译功能登陆 iOS

伴随实时搜索的全球发布,谷歌还宣布 Google 翻译的“实时翻译”功能 正式扩展至 iOS 平台

  • 耳机同传:连接任意蓝牙耳机,即可实现类似“同声传译”的体验——对方说话时,你耳边实时听到翻译后的语音。
  • 覆盖范围:支持 70 多种语言,Android 与 iOS 用户均可享受。
  • 场景价值:跨国旅行、商务会议、日常交流中,语言障碍将被彻底打破。

从“搜索信息”到“辅助行动”

谷歌此次大规模推广“实时搜索”,释放了明确的战略信号:

  1. 场景化突围:在生成式 AI 竞争白热化的当下,谷歌选择深耕**“物理世界交互”**这一护城河,利用其庞大的镜头使用基数(Google Lens)和地图数据,提供大模型公司难以复制的落地体验。
  2. 移动端优先:将最强大的 AI 能力直接注入数十亿用户的手机 App 中,而非局限于网页端,确保 AI 真正融入日常生活的高频场景。
  3. 生态协同:实时搜索、Google Lens、Google 翻译、Gemini 模型的深度打通,构建了谷歌独有的“视觉 - 语音 - 知识”闭环生态。
© 版权声明

相关文章

暂无评论

none
暂无评论...