谷歌发布研究原型：用 Gemini 模拟生成式操作系统

126 0

在传统图形用户界面（GUI）中，按钮、菜单和窗口都是预先编码的静态元素。但设想一种系统——每次点击后，整个界面由 AI 实时生成，根据上下文动态演化。这不是科幻，而是谷歌最新探索的方向。

谷歌近日公开一个研究原型项目，展示了一种基于大型语言模型的“生成式操作系统”概念。该原型已在 Google AI Studio 上线演示应用，旨在探索未来人机交互的新范式。

核心目标是：让计算机不再只是执行命令，而是持续理解意图并实时构建响应式界面。

该原型采用 Gemini 2.5 Flash-Lite 模型作为引擎。这款轻量级模型具备极低延迟特性，能够在数百毫秒内完成推理，是实现“感觉即时”的关键。

与传统 UI 不同，这里的每一屏内容都由模型按需生成。用户并非在一个固定文件系统中导航，而是在与一个不断被构建和重构的环境互动。

为了确保生成结果既灵活又可控，团队设计了两部分输入结构：

这是一个固定的系统级提示，定义全局规则，例如：

它相当于“宪法”，保证跨会话的一致性。

以 JSON 格式记录用户的最近操作，如“点击‘保存笔记’图标”。这个动态输入作为查询，触发模型生成下一个界面。

通过将“宪法”与“事件”结合，模型能在遵循设计规范的同时，对用户行为做出个性化响应。

单次点击只能提供有限信息，但连续操作构成了任务流。为此，原型引入了 N 步交互追踪机制，保留最近的操作序列作为上下文。

这意味着：

通过调节追踪长度，可在上下文相关性与界面稳定性之间取得平衡。

等待完整 HTML 输出再渲染会导致明显延迟。为此，团队采用流式传输 + 渐进渲染策略：

对用户而言，界面仿佛从空白中“生长”出来，显著提升响应感和参与度。

默认情况下，每次访问同一路径都会重新生成界面，导致非确定性体验（例如两次打开“文档夹”看到不同内容）。这虽具创造性，但不符合用户对稳定性的预期。

为此，原型支持构建 UI 图（UI Graph）：

这种方式在保留生成自由度的同时，提供了类似传统 GUI 的状态一致性，且避免了降低采样温度带来的质量下降问题。

尽管目前仅为实验性质，这一框架为未来产品带来多种可能性：

上下文智能面板：当检测到用户频繁比价航班时，自动弹出浮动控件，集成价格对比、预订直达等动态按钮，减少跳转步骤。
现有应用中的“生成模式”：在 Google Calendar 中启用后，移动会议邀请时，系统可自动生成包含“可用时间段推荐”的交互屏，参与者空闲时间以可点击按钮形式呈现，替代传统表单。
混合式 UI 架构：静态功能区 + 动态生成模块共存，兼顾稳定性与灵活性，适用于复杂工作流场景。