谷歌持续推进“通用AI助手”愿景,对Gemini Live进行三大核心升级:新增摄像头实时视觉指导、深度整合更多Google应用、优化音频交互体验,让助手不仅能“听”和“说”,还能“看见并联动”,进一步贴近日常使用场景。该功能兼容性与可用性因地区而异,需18岁以上用户使用。

一、视觉指导:分享摄像头,Gemini直接“指”出答案
以往Gemini Live仅能通过语音交互,此次升级后,当用户分享摄像头时,Gemini会在屏幕上实时高亮物体,用视觉提示辅助解决问题,让“看见即指导”成为可能。

1. 核心使用场景
- 决策辅助:面对选择时,Gemini可直观标注最优选项。例如在两双运动鞋间犹豫,将摄像头对准鞋子,它会高亮匹配你设想服装风格的那双;
- 物品定位:寻找特定物品时,无需反复描述。比如对着工具箱提问“哪个是十字螺丝刀”,Gemini会在屏幕上圈出对应工具;
- 场景化指导:后续还可扩展至更复杂场景,如烹饪时高亮需要处理的食材、维修时标注需操作的零件(功能逐步迭代中)。
2. 设备覆盖节奏
- 首发可用:8月28日Pixel 10系列上市后,该功能将立即支持;
- 逐步扩展:上市当周起向其他Android设备推送,未来几周内覆盖iOS设备。
二、多应用联动:在对话中直接调用Google生态工具
Gemini Live不再是“孤立的对话助手”,而是打通了Google Calendar、Keep、Tasks等高频应用,让“聊需求→办事情”在同一流程内完成,无需切换APP。
1. 已上线的核心联动能力
| 联动应用 | 典型使用场景 |
|---|---|
| Google Calendar + Tasks | 讨论日程时,可直接说“把周三下午3点的会议记到日历,并在会前1小时设Tasks提醒”,Gemini会自动同步至两个应用; |
| Google Keep | 构思晚餐食谱时,补充一句“把这些食材(番茄、牛肉、洋葱)添加到Keep购物清单”,清单会实时生成并同步; |
2. 即将上线的联动功能
- Messages + Phone:对话中可直接触发通讯操作。例如头脑风暴完妈妈的生日礼物后,说“给爸爸打电话,我要让他去拿”,Gemini会直接调用Phone应用拨号;
- Google Maps:导航场景中灵活调整。比如讨论地铁路线时发现可能迟到,打断对话说“给Alex发消息,说我晚10分钟”,Gemini会起草消息,同时不中断当前导航流程。
三、音频体验优化:让对话更有“人情味”
为打破AI语音的“机械感”,谷歌将推出音频模型更新,通过优化语调、节奏、音高,让Gemini Live的交互更贴近人类自然交流,甚至支持个性化调整。
1. 三大核心升级点
- 场景化语调适配:根据对话内容调整语气。例如讨论压力大的话题(如“项目 deadline 临近”),会用更平静、稳重的声音回应;聊轻松话题时,语调会更明快;
- 语速与风格控制:用户可主动定义语音风格。比如记笔记时说“说得慢一点”,赶时间时说“加快语速”,甚至可以要求“用英式口音讲”来活跃气氛;
- 角色化表达:支持沉浸式内容输出。例如让Gemini“以尤利乌斯·凯撒的视角讲罗马帝国故事”,它会用符合角色设定的口音和语气叙述,提升内容吸引力。
2. 上线时间
新音频模型将于未来几周内逐步推送,用户无需额外操作,更新后即可体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...















