谷歌悄悄放大招！AI Studio即将迎来实时多模态革命

349 0

上周末，谷歌在网页面版的 AI Studio 中低调更新了一项隐藏功能。虽然更新并未详细说明具体改动，但“新功能”部分的一个通用“新”标签引起了用户的注意。点击该标签后，页面会重定向至 Stream Realtime 部分，暗示此次更新与 Gemini 的实时多模态处理能力密切相关。

目前，Stream Realtime 功能依赖于 Flash 2.0 模型，但有猜测认为谷歌可能正计划将其升级至 Flash 2.5。如果这一推测属实，这将标志着 Gemini 在实时处理图像、视频甚至音频输入方面的能力实现质的飞跃。此外，谷歌可能会在即将到来的 Google I/O 大会 上正式宣布这一更新，并同步推出 Veo 和 Imagen 的新版本等更广泛的模型进展。

隐藏更新背后的深意

尽管这一变化尚未被明确描述，其低调的位置表明谷歌可能正在为大会主题演讲期间的正式发布做铺垫。Stream Realtime 功能位于实时流媒体多模态界面中，这意味着谷歌正在进一步增强其在实时媒体分析和生成方面的能力。此次升级可能为从视觉输入到语音响应的端到端输入-输出管道奠定基础，从而大幅提高系统的自动化水平和实用性。

后端调整揭示代理堆栈的演变

除了 Stream Realtime 的潜在升级，早期用户还发现了一项后端调整：AI Studio 现在允许同时使用网络搜索和代码执行功能。此前，这两者是互斥的选择，无法同时启用。尽管这一改动尚未被官方记录，但它暗示了谷歌正在开发一个更加灵活且自主性强的代理堆栈，能够以更高的上下文切换能力处理复杂任务。

代理工作流的未来展望

围绕代理工作流的讨论近期也在开发者社区中升温。谷歌开发者关系负责人 Logan Kilpatrick 最近在社交平台 X上发起了一项调查，询问开发者是否希望将工程代理集成到 AI Studio 中。这一举动让人联想到 OpenAI 在 ChatGPT 中推出的 Codex 代理，后者通过自动化拉取请求等功能显著提升了软件开发效率。

虽然谷歌尚未确认是否会模仿 OpenAI 的模式，但此前已有报道称，谷歌正在开发自己的类似代理系统，目标可能是自动化软件开发任务。结合谷歌通过 Cloud Run 统一模型能力和可部署性的努力，这些线索表明谷歌正在构建一个无缝衔接的编码与部署流程。至于这些技术细节是否会汇聚在 Google I/O 大会上揭晓，目前仍是未知数。