Notion 为何选择彻底重构?为智能体 AI 拆掉旧架构

科普2个月前发布 小马良
61 0

当大多数公司还在用提示工程(prompting)让AI“照着做任务”时,Notion 已经决定:推倒重来

为了实现其生产力平台向“AI 智能体驱动”的演进,Notion 在开发 3.0 版本的过程中,完全重建了原有的 AI 技术架构——不是迭代,而是从头开始。

Notion 为何选择彻底重构?为智能体 AI 拆掉旧架构

这一决定并非轻率之举。正如 Notion AI 建模负责人 Sarah Sachs 所说:“我们不想强行适配现有系统去服务新模型的能力,而是希望真正发挥推理模型的优势。”

为此,他们拆掉了过去基于固定流程和少样本提示的AI工作流,构建了一个全新的、支持自主决策的智能体系统。

转型动因:从“执行者”到“规划者”

传统AI助手的工作方式是:

给出明确指令 → 模型按步骤执行 → 完成单一任务。

而新一代推理模型(如GPT-4级及以上)已具备更强的理解与规划能力,能够:

  • 理解可用工具的功能边界;
  • 自主判断应调用哪个工具;
  • 制定多步执行路径;
  • 在过程中动态调整策略。

这意味着,如果仍沿用旧有的“脚本化”流程,反而会限制模型潜力。

Sachs 表示:“我们意识到,要支持真正的智能体行为,就必须放弃刚性的提示链设计。”
于是,Notion 团队做出了一个大胆但必要的决定:重建整个AI编排系统

新架构核心:统一编排 + 模块化子智能体

Notion 3.0 的新AI系统围绕两个关键理念构建:

✅ 统一编排模型(Unified Orchestrator)

取代过去多个独立提示模板,现在由一个中央推理模型负责整体任务调度。它接收用户目标(例如:“总结上周会议并生成待办事项”),然后自主决定如何分解任务、选择工具、协调执行顺序。

✅ 模块化子智能体(Modular Sub-agents)

这些是可插拔的功能单元,每个专注于特定能力:

  • 搜索 Notion 内容或外部网页
  • 查询数据库并更新记录
  • 编辑文档结构与格式
  • 跨平台同步信息(如 Slack、Jira)

重要的是,模型会根据上下文自主选择使用哪个智能体。比如,在查找某项目进度时,它可能先查 Notion 数据库,若无结果则转向 Slack 历史消息搜索。

整个过程持续进行,直到达成目标为止。

“你能做的任何事情,你的 Notion 智能体也应该能做。” —— Sarah Sachs

分叉评估:精准识别幻觉来源

为了让智能体输出更可靠,Notion 引入了一套严格的评估体系,其中最具特色的是“分叉评估(forked evaluation)”。

具体做法是:

  1. 对同一输入运行多个模型路径;
  2. 将输出差异归因于特定组件(如检索模块、推理模块或工具调用逻辑);
  3. 通过人工标注与大模型裁判结合的方式,定位错误根源。

这种方法帮助团队有效隔离“幻觉”问题——尤其是那些源于数据 grounding 不足或工具误用的情况。

此外,Notion 始终将模型响应建立在可信数据源之上:

  • 企业内部知识库
  • 用户授权连接的工作空间(如 Slack、Google Drive)
  • 经筛选的公开网络资源

这确保了即使在复杂推理中,AI 输出也能保持事实一致性与组织合规性。

性能取舍:延迟不是越低越好

一个反直觉的事实是:用户并不总是追求最快的响应速度

Sachs 提到,Notion 团队深入研究了用户的“延迟容忍度”:

  • 如果问“2+2等于几”,没人愿意等3秒;
  • 但如果请求是“分析过去三个月销售趋势并写一份报告”,用户愿意等待几分钟甚至更久。

关键在于设定合理的预期

因此,Notion 根据任务类型动态调整交互模式:

  • 即时响应场景:优先本地缓存与快速检索,减少网络往返;
  • 深度推理任务:允许智能体在后台运行长达20分钟,跨数百个文档自主搜索、整合信息。

产品界面也会明确告知用户:“此操作需要时间,请稍后查看结果。” 这种透明沟通大大提升了用户体验接受度。

“这不是纯技术问题,而是产品设计问题。” —— Sarah Sachs

自研自用:最真实的测试环境

Notion 最大的优势之一,就是自己是最大的用户

公司员工每天都在使用 Notion 构建文档、管理项目、协作沟通。这种深度沉浸带来了极快的反馈闭环:

  • 团队设有活跃的沙盒环境,用于生成训练与评估数据;
  • 每次AI交互都可被标记为“点赞”或“点踩”;
  • 用户同意让人工标注者回溯分析失败案例,尽可能还原上下文。

但这也有风险:内部偏好可能偏离外部客户真实需求。

为此,Notion 设立了“AI 精通型”设计合作伙伴计划,邀请外部企业提前试用新功能,并提供独立反馈。这些来自不同行业、不同使用习惯的声音,成为产品演进的重要校准器。

Sachs 强调:“如果我们只看 Notion 如何使用 Notion,我们无法为客户打造最好的体验。”

防止退化:评估不只是打分

许多公司在模型上线后仅做回顾性评估(post-hoc evaluation),即定期抽查性能是否下降。但 Notion 认为这远远不够。

他们的评估体系分为两类:

类型目的
前瞻性评估指导研发方向,探索新能力边界
可观察性监控实时检测准确性、延迟、错误率,防止模型退化

“很多公司混淆了这两者,”Sachs 指出,“但我们把它们当作两种完全不同用途的工具。”

正是这种系统化的评估文化,使得 Notion 能够在快速迭代的同时,始终保持服务质量稳定。

给技术领导者的启示

Notion 的这次重构,不仅是技术升级,更是一次组织思维的转变。Sachs 总结了几点值得借鉴的经验:

🛠️ 1. 敢于重建,当基础能力发生质变时

当模型从“执行指令”变为“自主决策”,旧架构必然成为瓶颈。不要害怕推倒重来。

⏱️ 2. 延迟是上下文相关的

不要一味追求低延迟。按任务类型优化响应策略,并通过UI管理用户预期。

🔗 3. 所有输出必须 grounded 在可信数据中

尤其在企业场景下,准确性和信任比速度更重要。

🧪 4. 把评估当成核心基础设施

不只是上线后的检查,更是驱动改进的引擎。

💬 5. 开放实验,获取真实反馈

内部测试很重要,但外部视角才是产品的最终检验标准。

© 版权声明

相关文章

暂无评论

none
暂无评论...