谷歌正持续扩展Gemini的功能边界——继此前曝光与“nano-banana模型”相关的“gem pix”图像编辑选项后,近期Gemini的模式选择器中又出现三项实验性新功能:Agent模式、Gemini Go与Immersive View。这三项并行推进的新模式,不仅覆盖“自主任务执行”“创意协作”“视觉答案”三大场景,更透露出谷歌的核心战略:将Gemini从单纯的“聊天助手”,升级为融合原型设计、研究探索与视觉解释的“综合创意与自主代理平台”。

三大新模式核心功能:定位清晰,覆盖不同使用场景
从目前曝光的功能描述来看,三项新模式各有侧重,分别针对“复杂任务自主处理”“创意协作”“视觉化信息呈现”三大用户需求,形成功能互补:
1. Agent模式:主打“自主探索、规划与任务执行”,对标竞品代理功能
作为此次最受关注的新模式,Agent模式早在今年Google I/O大会上已首次亮相,如今功能描述进一步明确——它不再局限于“用户提需求、AI给答案”的简单交互,而是能自主完成多步骤复杂任务:比如用户提出“整理2025年全球AI行业投融资报告”,Agent模式可自动规划执行路径(确定数据来源、筛选关键信息、整合分析框架、生成结构化报告),过程中无需用户反复干预,完全对标ChatGPT等竞品已落地的“代理工作流”功能。
从产品设计来看,Agent模式拥有“专用图标”,与其他共享“通用开发图标”的模式形成区别——这一细节暗示,它大概率不会像谷歌过往部分实验功能那样“临时存在”,而是可能作为独立功能长期保留,成为Gemini吸引“需要高效完成复杂任务”用户(如职场人、研究者)的核心竞争力。
2. Gemini Go:聚焦“创意协作”,或与Canvas功能深度联动
Gemini Go的描述为“共同探索创意”,核心定位是“协作式创意工具”。结合Gemini现有功能推测,它极有可能与已上线的“Canvas”功能关联紧密——Canvas目前已支持原型设计、草图绘制等可视化创作,而Gemini Go或许会在此基础上强化“头脑风暴”能力:比如用户提出“设计一款便携式咖啡机”,Gemini Go可同步生成创意方向(如“迷你即热式”“环保材质机身”)、快速绘制简易原型草图,甚至联动其他工具生成材质选型建议,成为用户的“创意搭档”。
不过目前尚未明确Gemini Go的最终形态:是作为独立模式推出,还是仅作为Canvas功能的“头脑风暴子模块”存在,仍需等待谷歌进一步披露。
3. Immersive View:提供“视觉答案”,或扩展视频概述与图像生成能力
Immersive View的核心承诺是“为问题提供视觉答案”,从功能定位来看,它有两种可能的发展方向:
- 扩展视频概述能力:此前Gemini已支持“视频概述”(自动提取视频核心信息并生成文字总结),Immersive View或许会在此基础上增加“视觉化呈现”——比如总结电影剧情时,自动生成关键场景的示意图;解析教程视频时,同步输出步骤拆解的流程图;
- 新增按需视觉解释:针对用户的抽象问题,直接生成图像化答案——比如用户问“‘蝴蝶效应’的原理是什么”,Immersive View可生成动态示意图,直观展示“初始微小变化如何引发后续连锁反应”,用视觉化方式降低复杂概念的理解门槛。
目前该模式同样处于实验阶段,具体功能细节仍需后续验证,但可以确定的是,它将填补Gemini在“视觉化信息输出”领域的现有短板。
新模式的“实验属性”:部分功能或融入核心体验,暂无推出时间表
从谷歌过往的产品迭代逻辑来看,此次曝光的三大新模式,并非全部会以“独立下拉选项”的形式长期存在:
- 临时容器属性:谷歌历史上多次出现“实验性开关”——这些功能初期以独立模式测试,收集用户反馈后,最终会融入Gemini的核心体验。比如此前部分图像编辑功能,最初是独立选项,后续逐步整合到“生成式内容”核心模块中;
- 模式差异明显:如前文所述,Agent模式因“专用图标”脱颖而出,大概率会保持独立入口;而Gemini Go与Immersive View共享“通用开发图标”,更偏向“早期实验形态”,未来可能会被整合到Canvas、视觉生成等现有功能中,或根据测试反馈调整形态。
值得注意的是,谷歌目前尚未公布这些新模式的正式推出时间表,但从“更新功能描述”的动作来看,公司正积极推进测试,预计在收集足够用户反馈、优化功能稳定性后,会逐步开启更广泛的推送。
背后的战略逻辑:推动Gemini从“聊天助手”转向“综合工作平台”
此次三大新模式的测试,本质上是谷歌Gemini战略转型的具体落地——从单纯的“聊天交互工具”,向“一站式创意与自主代理平台”升级:
- 覆盖全链路需求:Agent模式解决“自主完成复杂任务”的效率需求,Gemini Go满足“创意构思与原型设计”的创作需求,Immersive View填补“视觉化信息输出”的体验需求,三者结合后,用户无需在多个工具间切换,即可在Gemini内完成“提出需求→自主执行→创意落地→视觉呈现”的全链路工作;
- 对标行业竞争:随着ChatGPT等竞品持续强化“代理功能”“多模态创作”能力,谷歌通过此次新模式布局,既能补齐功能短板,也能进一步巩固Gemini在“多场景整合”领域的优势,吸引更多企业用户与个人创作者。
对普通用户而言,这些新模式的落地将带来更直观的体验升级:比如职场人可用Agent模式自动整理会议纪要并生成待办清单,设计师可通过Gemini Go快速迭代创意原型,学生可借助Immersive View直观理解复杂知识点。后续只需关注Gemini的功能更新通知,即可第一时间体验这些新能力。(来源)














