Gemini Live升级:视觉指导+多应用联动,打造更自然的AI助手体验

早报4个月前发布 小马良
170 0

谷歌持续推进“通用AI助手”愿景,对Gemini Live进行三大核心升级:新增摄像头实时视觉指导、深度整合更多Google应用、优化音频交互体验,让助手不仅能“听”和“说”,还能“看见并联动”,进一步贴近日常使用场景。该功能兼容性与可用性因地区而异,需18岁以上用户使用。

Gemini Live升级:视觉指导+多应用联动,打造更自然的AI助手体验

一、视觉指导:分享摄像头,Gemini直接“指”出答案

以往Gemini Live仅能通过语音交互,此次升级后,当用户分享摄像头时,Gemini会在屏幕上实时高亮物体,用视觉提示辅助解决问题,让“看见即指导”成为可能。

Gemini Live升级:视觉指导+多应用联动,打造更自然的AI助手体验

1. 核心使用场景

  • 决策辅助:面对选择时,Gemini可直观标注最优选项。例如在两双运动鞋间犹豫,将摄像头对准鞋子,它会高亮匹配你设想服装风格的那双;
  • 物品定位:寻找特定物品时,无需反复描述。比如对着工具箱提问“哪个是十字螺丝刀”,Gemini会在屏幕上圈出对应工具;
  • 场景化指导:后续还可扩展至更复杂场景,如烹饪时高亮需要处理的食材、维修时标注需操作的零件(功能逐步迭代中)。

2. 设备覆盖节奏

  • 首发可用:8月28日Pixel 10系列上市后,该功能将立即支持;
  • 逐步扩展:上市当周起向其他Android设备推送,未来几周内覆盖iOS设备。

二、多应用联动:在对话中直接调用Google生态工具

Gemini Live不再是“孤立的对话助手”,而是打通了Google Calendar、Keep、Tasks等高频应用,让“聊需求→办事情”在同一流程内完成,无需切换APP。

1. 已上线的核心联动能力

联动应用典型使用场景
Google Calendar + Tasks讨论日程时,可直接说“把周三下午3点的会议记到日历,并在会前1小时设Tasks提醒”,Gemini会自动同步至两个应用;
Google Keep构思晚餐食谱时,补充一句“把这些食材(番茄、牛肉、洋葱)添加到Keep购物清单”,清单会实时生成并同步;

2. 即将上线的联动功能

  • Messages + Phone:对话中可直接触发通讯操作。例如头脑风暴完妈妈的生日礼物后,说“给爸爸打电话,我要让他去拿”,Gemini会直接调用Phone应用拨号;
  • Google Maps:导航场景中灵活调整。比如讨论地铁路线时发现可能迟到,打断对话说“给Alex发消息,说我晚10分钟”,Gemini会起草消息,同时不中断当前导航流程。

三、音频体验优化:让对话更有“人情味”

为打破AI语音的“机械感”,谷歌将推出音频模型更新,通过优化语调、节奏、音高,让Gemini Live的交互更贴近人类自然交流,甚至支持个性化调整。

1. 三大核心升级点

  • 场景化语调适配:根据对话内容调整语气。例如讨论压力大的话题(如“项目 deadline 临近”),会用更平静、稳重的声音回应;聊轻松话题时,语调会更明快;
  • 语速与风格控制:用户可主动定义语音风格。比如记笔记时说“说得慢一点”,赶时间时说“加快语速”,甚至可以要求“用英式口音讲”来活跃气氛;
  • 角色化表达:支持沉浸式内容输出。例如让Gemini“以尤利乌斯·凯撒的视角讲罗马帝国故事”,它会用符合角色设定的口音和语气叙述,提升内容吸引力。

2. 上线时间

新音频模型将于未来几周内逐步推送,用户无需额外操作,更新后即可体验。

© 版权声明

相关文章

暂无评论

none
暂无评论...