谷歌Gemini测试三大新模式：Agent支持自主任务，Go与Immersive View补全创意与视觉体验

161 0

谷歌正持续扩展Gemini的功能边界——继此前曝光与“nano-banana模型”相关的“gem pix”图像编辑选项后，近期Gemini的模式选择器中又出现三项实验性新功能：Agent模式、Gemini Go与Immersive View。这三项并行推进的新模式，不仅覆盖“自主任务执行”“创意协作”“视觉答案”三大场景，更透露出谷歌的核心战略：将Gemini从单纯的“聊天助手”，升级为融合原型设计、研究探索与视觉解释的“综合创意与自主代理平台”。

谷歌Gemini测试三大新模式：Agent支持自主任务，Go与Immersive View补全创意与视觉体验

三大新模式核心功能：定位清晰，覆盖不同使用场景

从目前曝光的功能描述来看，三项新模式各有侧重，分别针对“复杂任务自主处理”“创意协作”“视觉化信息呈现”三大用户需求，形成功能互补：

1. Agent模式：主打“自主探索、规划与任务执行”，对标竞品代理功能

作为此次最受关注的新模式，Agent模式早在今年Google I/O大会上已首次亮相，如今功能描述进一步明确——它不再局限于“用户提需求、AI给答案”的简单交互，而是能自主完成多步骤复杂任务：比如用户提出“整理2025年全球AI行业投融资报告”，Agent模式可自动规划执行路径（确定数据来源、筛选关键信息、整合分析框架、生成结构化报告），过程中无需用户反复干预，完全对标ChatGPT等竞品已落地的“代理工作流”功能。

从产品设计来看，Agent模式拥有“专用图标”，与其他共享“通用开发图标”的模式形成区别——这一细节暗示，它大概率不会像谷歌过往部分实验功能那样“临时存在”，而是可能作为独立功能长期保留，成为Gemini吸引“需要高效完成复杂任务”用户（如职场人、研究者）的核心竞争力。

2. Gemini Go：聚焦“创意协作”，或与Canvas功能深度联动

Gemini Go的描述为“共同探索创意”，核心定位是“协作式创意工具”。结合Gemini现有功能推测，它极有可能与已上线的“Canvas”功能关联紧密——Canvas目前已支持原型设计、草图绘制等可视化创作，而Gemini Go或许会在此基础上强化“头脑风暴”能力：比如用户提出“设计一款便携式咖啡机”，Gemini Go可同步生成创意方向（如“迷你即热式”“环保材质机身”）、快速绘制简易原型草图，甚至联动其他工具生成材质选型建议，成为用户的“创意搭档”。

不过目前尚未明确Gemini Go的最终形态：是作为独立模式推出，还是仅作为Canvas功能的“头脑风暴子模块”存在，仍需等待谷歌进一步披露。

3. Immersive View：提供“视觉答案”，或扩展视频概述与图像生成能力

Immersive View的核心承诺是“为问题提供视觉答案”，从功能定位来看，它有两种可能的发展方向：

扩展视频概述能力：此前Gemini已支持“视频概述”（自动提取视频核心信息并生成文字总结），Immersive View或许会在此基础上增加“视觉化呈现”——比如总结电影剧情时，自动生成关键场景的示意图；解析教程视频时，同步输出步骤拆解的流程图；
新增按需视觉解释：针对用户的抽象问题，直接生成图像化答案——比如用户问“‘蝴蝶效应’的原理是什么”，Immersive View可生成动态示意图，直观展示“初始微小变化如何引发后续连锁反应”，用视觉化方式降低复杂概念的理解门槛。

目前该模式同样处于实验阶段，具体功能细节仍需后续验证，但可以确定的是，它将填补Gemini在“视觉化信息输出”领域的现有短板。

新模式的“实验属性”：部分功能或融入核心体验，暂无推出时间表

从谷歌过往的产品迭代逻辑来看，此次曝光的三大新模式，并非全部会以“独立下拉选项”的形式长期存在：

临时容器属性：谷歌历史上多次出现“实验性开关”——这些功能初期以独立模式测试，收集用户反馈后，最终会融入Gemini的核心体验。比如此前部分图像编辑功能，最初是独立选项，后续逐步整合到“生成式内容”核心模块中；
模式差异明显：如前文所述，Agent模式因“专用图标”脱颖而出，大概率会保持独立入口；而Gemini Go与Immersive View共享“通用开发图标”，更偏向“早期实验形态”，未来可能会被整合到Canvas、视觉生成等现有功能中，或根据测试反馈调整形态。

值得注意的是，谷歌目前尚未公布这些新模式的正式推出时间表，但从“更新功能描述”的动作来看，公司正积极推进测试，预计在收集足够用户反馈、优化功能稳定性后，会逐步开启更广泛的推送。

背后的战略逻辑：推动Gemini从“聊天助手”转向“综合工作平台”

此次三大新模式的测试，本质上是谷歌Gemini战略转型的具体落地——从单纯的“聊天交互工具”，向“一站式创意与自主代理平台”升级：

覆盖全链路需求：Agent模式解决“自主完成复杂任务”的效率需求，Gemini Go满足“创意构思与原型设计”的创作需求，Immersive View填补“视觉化信息输出”的体验需求，三者结合后，用户无需在多个工具间切换，即可在Gemini内完成“提出需求→自主执行→创意落地→视觉呈现”的全链路工作；
对标行业竞争：随着ChatGPT等竞品持续强化“代理功能”“多模态创作”能力，谷歌通过此次新模式布局，既能补齐功能短板，也能进一步巩固Gemini在“多场景整合”领域的优势，吸引更多企业用户与个人创作者。

对普通用户而言，这些新模式的落地将带来更直观的体验升级：比如职场人可用Agent模式自动整理会议纪要并生成待办清单，设计师可通过Gemini Go快速迭代创意原型，学生可借助Immersive View直观理解复杂知识点。后续只需关注Gemini的功能更新通知，即可第一时间体验这些新能力。（来源）