Notion 为何选择彻底重构？为智能体 AI 拆掉旧架构

科普5个月前发布小马良

90 0

当大多数公司还在用提示工程（prompting）让AI“照着做任务”时，Notion 已经决定：推倒重来。

为了实现其生产力平台向“AI 智能体驱动”的演进，Notion 在开发 3.0 版本的过程中，完全重建了原有的 AI 技术架构——不是迭代，而是从头开始。

这一决定并非轻率之举。正如 Notion AI 建模负责人 Sarah Sachs 所说：“我们不想强行适配现有系统去服务新模型的能力，而是希望真正发挥推理模型的优势。”

为此，他们拆掉了过去基于固定流程和少样本提示的AI工作流，构建了一个全新的、支持自主决策的智能体系统。

转型动因：从“执行者”到“规划者”

传统AI助手的工作方式是：

给出明确指令 → 模型按步骤执行 → 完成单一任务。

而新一代推理模型（如GPT-4级及以上）已具备更强的理解与规划能力，能够：

理解可用工具的功能边界；
自主判断应调用哪个工具；
制定多步执行路径；
在过程中动态调整策略。

这意味着，如果仍沿用旧有的“脚本化”流程，反而会限制模型潜力。

Sachs 表示：“我们意识到，要支持真正的智能体行为，就必须放弃刚性的提示链设计。”
于是，Notion 团队做出了一个大胆但必要的决定：重建整个AI编排系统。

新架构核心：统一编排 + 模块化子智能体

Notion 3.0 的新AI系统围绕两个关键理念构建：

✅ 统一编排模型（Unified Orchestrator）

取代过去多个独立提示模板，现在由一个中央推理模型负责整体任务调度。它接收用户目标（例如：“总结上周会议并生成待办事项”），然后自主决定如何分解任务、选择工具、协调执行顺序。

✅ 模块化子智能体（Modular Sub-agents）

这些是可插拔的功能单元，每个专注于特定能力：

搜索 Notion 内容或外部网页
查询数据库并更新记录
编辑文档结构与格式
跨平台同步信息（如 Slack、Jira）

重要的是，模型会根据上下文自主选择使用哪个智能体。比如，在查找某项目进度时，它可能先查 Notion 数据库，若无结果则转向 Slack 历史消息搜索。

整个过程持续进行，直到达成目标为止。

“你能做的任何事情，你的 Notion 智能体也应该能做。” —— Sarah Sachs

分叉评估：精准识别幻觉来源

为了让智能体输出更可靠，Notion 引入了一套严格的评估体系，其中最具特色的是“分叉评估（forked evaluation）”。

具体做法是：

对同一输入运行多个模型路径；
将输出差异归因于特定组件（如检索模块、推理模块或工具调用逻辑）；
通过人工标注与大模型裁判结合的方式，定位错误根源。

这种方法帮助团队有效隔离“幻觉”问题——尤其是那些源于数据 grounding 不足或工具误用的情况。

此外，Notion 始终将模型响应建立在可信数据源之上：

企业内部知识库
用户授权连接的工作空间（如 Slack、Google Drive）
经筛选的公开网络资源

这确保了即使在复杂推理中，AI 输出也能保持事实一致性与组织合规性。

性能取舍：延迟不是越低越好

一个反直觉的事实是：用户并不总是追求最快的响应速度。

Sachs 提到，Notion 团队深入研究了用户的“延迟容忍度”：

如果问“2+2等于几”，没人愿意等3秒；
但如果请求是“分析过去三个月销售趋势并写一份报告”，用户愿意等待几分钟甚至更久。

关键在于设定合理的预期。

因此，Notion 根据任务类型动态调整交互模式：

即时响应场景：优先本地缓存与快速检索，减少网络往返；
深度推理任务：允许智能体在后台运行长达20分钟，跨数百个文档自主搜索、整合信息。

产品界面也会明确告知用户：“此操作需要时间，请稍后查看结果。” 这种透明沟通大大提升了用户体验接受度。

“这不是纯技术问题，而是产品设计问题。” —— Sarah Sachs

自研自用：最真实的测试环境

Notion 最大的优势之一，就是自己是最大的用户。

公司员工每天都在使用 Notion 构建文档、管理项目、协作沟通。这种深度沉浸带来了极快的反馈闭环：

团队设有活跃的沙盒环境，用于生成训练与评估数据；
每次AI交互都可被标记为“点赞”或“点踩”；
用户同意让人工标注者回溯分析失败案例，尽可能还原上下文。

但这也有风险：内部偏好可能偏离外部客户真实需求。

为此，Notion 设立了“AI 精通型”设计合作伙伴计划，邀请外部企业提前试用新功能，并提供独立反馈。这些来自不同行业、不同使用习惯的声音，成为产品演进的重要校准器。

Sachs 强调：“如果我们只看 Notion 如何使用 Notion，我们无法为客户打造最好的体验。”

防止退化：评估不只是打分

许多公司在模型上线后仅做回顾性评估（post-hoc evaluation），即定期抽查性能是否下降。但 Notion 认为这远远不够。

他们的评估体系分为两类：

类型	目的
前瞻性评估	指导研发方向，探索新能力边界
可观察性监控	实时检测准确性、延迟、错误率，防止模型退化

“很多公司混淆了这两者，”Sachs 指出，“但我们把它们当作两种完全不同用途的工具。”

正是这种系统化的评估文化，使得 Notion 能够在快速迭代的同时，始终保持服务质量稳定。

给技术领导者的启示

Notion 的这次重构，不仅是技术升级，更是一次组织思维的转变。Sachs 总结了几点值得借鉴的经验：

🛠️ 1. 敢于重建，当基础能力发生质变时

当模型从“执行指令”变为“自主决策”，旧架构必然成为瓶颈。不要害怕推倒重来。

⏱️ 2. 延迟是上下文相关的

不要一味追求低延迟。按任务类型优化响应策略，并通过UI管理用户预期。

🔗 3. 所有输出必须 grounded 在可信数据中

尤其在企业场景下，准确性和信任比速度更重要。

🧪 4. 把评估当成核心基础设施

不只是上线后的检查，更是驱动改进的引擎。

💬 5. 开放实验，获取真实反馈

内部测试很重要，但外部视角才是产品的最终检验标准。

科普 # Notion

文章版权归作者所有，未经允许请勿转载。

OpenAI 最新研究揭示：AI 会“故意撒谎”，但问题比你想的更复杂

科普 # OpenAI

6个月前

01160

Stable Diffusion提示词简介、语法规则、常用提示词与浏览器插件推荐

科普 # ComfyUI # negative prompts # positive prompts

2年前

01,3470

大语言模型架构对比：从 DeepSeek-V3 到 Kimi K2，现代大语言模型架构设计一览

科普 # Deepseek V3 # Kimi K2 # 大语言模型架构

8个月前

02180

对话 Google 技术专家：什么是“氛围编程”？

科普 # Vibe Coding # 氛围编程

5个月前

0890

暂无评论

暂无评论...

Notion 为何选择彻底重构？为智能体 AI 拆掉旧架构

转型动因：从“执行者”到“规划者”

新架构核心：统一编排 + 模块化子智能体

✅ 统一编排模型（Unified Orchestrator）

✅ 模块化子智能体（Modular Sub-agents）

分叉评估：精准识别幻觉来源

性能取舍：延迟不是越低越好

自研自用：最真实的测试环境

防止退化：评估不只是打分

给技术领导者的启示

🛠️ 1. 敢于重建，当基础能力发生质变时

⏱️ 2. 延迟是上下文相关的

🔗 3. 所有输出必须 grounded 在可信数据中

🧪 4. 把评估当成核心基础设施

💬 5. 开放实验，获取真实反馈

对话 Google 技术专家：什么是“氛围编程”？

OpenAI 称 GPT-5 为“最无偏见”模型，公布政治倾向压力测试结果

相关文章

OpenAI 最新研究揭示：AI 会“故意撒谎”，但问题比你想的更复杂

Stable Diffusion提示词简介、语法规则、常用提示词与浏览器插件推荐

大语言模型架构对比：从 DeepSeek-V3 到 Kimi K2，现代大语言模型架构设计一览

对话 Google 技术专家：什么是“氛围编程”？

暂无评论

文章

DiT架构的文生视频模型xGen-VideoSyn-1：根据文本描述生成逼真的视频场景

用“Megakernel”打破LLM推理瓶颈：斯坦福Hazy Research实现Llama-1B史上最低延迟

Vivaldi CEO 强硬表态：坚决禁止浏览器集成生成式 AI，网页该由人类主导

针对姿势引导的人像图像动画技术TCAN：让图片中的人物根据某个动作序列（比如一个视频）来做出相应的动作

自适应投影引导APG：不牺牲图像质量的前提下，使用更高的指导尺度，从而生成更丰富、更真实的图像

Trae Agent 2.0大升级：能记住、会推理、更懂代码的AI来了

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw

Notion 为何选择彻底重构？为智能体 AI 拆掉旧架构

转型动因：从“执行者”到“规划者”

新架构核心：统一编排 + 模块化子智能体

✅ 统一编排模型（Unified Orchestrator）

✅ 模块化子智能体（Modular Sub-agents）

分叉评估：精准识别幻觉来源

性能取舍：延迟不是越低越好

自研自用：最真实的测试环境

防止退化：评估不只是打分

给技术领导者的启示

🛠️ 1. 敢于重建，当基础能力发生质变时

⏱️ 2. 延迟是上下文相关的

🔗 3. 所有输出必须 grounded 在可信数据中

🧪 4. 把评估当成核心基础设施

💬 5. 开放实验，获取真实反馈

对话 Google 技术专家：什么是“氛围编程”？

OpenAI 称 GPT-5 为“最无偏见”模型，公布政治倾向压力测试结果

相关文章

文章

标签云

网址

新悟空

Meshy

S.H.I.T

OpenMAIC

CutCut

ArkClaw