谷歌正为即将到来的Google I/O大会(5月20日)准备一系列重大更新,这些更新将显著增强其Gemini平台的功能,并在多模态AI竞赛中与OpenAI的GPT-5展开直接竞争。通过代码发现和近期公告,多个新功能逐渐浮出水面,展示了谷歌在AI领域的持续创新和战略调整。
Gemini工具箱扩展:迈向统一多模态工作空间
被称为“Agents”的Gemini工具箱正在迎来多项扩展,新增了包括Memory(Teamfood)、用于视频生成的Veo 2、Image等选项,同时整合了现有的Canvas、Deep Research和Search工具。虽然部分功能此前已存在,但将其纳入统一的Agents工具箱表明谷歌正在努力为用户提供一个更加集成化、多模态的工作环境。
这一变化不仅提升了Gemini的灵活性,还使其能够更好地满足从普通用户到专业人士的不同需求。例如,Memory功能可能帮助用户更高效地管理和调用上下文信息,而Veo 2则专注于动态内容创作,进一步拓展Gemini的应用场景。
MMGEN Discovery Card:多模态能力的预览
一个引人注目的新功能是MMGEN Discovery Card,这是一种用于多模态生成的发现弹窗。它的出现可能预示着谷歌将大规模推广多模态生成能力,使用户能够无缝切换文本、图像和视频创作。这与近期关于Gemini Ultra的传言高度吻合。

Gemini Ultra被定位为一个新的订阅层级,旨在整合高级功能(如视频和图像生成)于一个计划之下。代码字符串显示,视频生成存在速率限制,提示用户升级到Gemini Ultra以获得更高的使用额度。这种分层订阅模式类似于现有的Gemini Advanced和传闻中的Pro层级,表明谷歌正在细化其订阅服务,以满足不同用户群体的需求。
Deep Research升级:个性化研究洞察
Deep Research功能也将迎来一次重大升级,允许用户上传包括图像、代码和文档在内的多种文件类型,从而获得更加个性化的研究洞察。这一功能的推出无疑将受到专业人士和研究人员的欢迎,因为它能够基于用户提供的数据进行更精准的研究分析(grounding)。
目前,这一功能已被用户高度期待,并预计在未来几个月内正式上线。通过支持更多样化的文件类型,Deep Research将成为一个更为强大的工具,适用于学术研究、商业分析和技术开发等多种场景。
谷歌的战略方向:整合与竞争并行
谷歌的战略显然聚焦于整合其Gemini产品线,提供更细化的订阅选项,并与OpenAI等竞争对手保持同步。通过推出Gemini Ultra,谷歌不仅回应了市场对多模态AI系统的期待,还在尝试建立一个更具竞争力的服务体系。
这些更新反映了谷歌向基于订阅的AI服务模式的持续转变。无论是面向普通用户的轻量级功能,还是针对专业人士的高级工具,谷歌都试图在用户体验和服务价值之间找到平衡点。这也表明谷歌希望在多模态AI领域重新确立其技术领先地位。