从 Cursor 到 Warp！AI 编程的重心正在转向终端

早报7个月前发布小马良

298 0

多年来，像 Cursor、Windsurf 和 GitHub Copilot 这样的 AI 编辑器一直是人工智能驱动开发的代表产品。它们通过代码补全、上下文理解、智能建议等方式，帮助开发者提升编码效率。

然而，随着 AI 模型能力的不断增强，“氛围编码”（vibe coding）和“终端交互”的兴起正在悄然改变 AI 与软件开发之间的关系。

AI 不再只是写代码的助手，而是开始直接与系统的底层交互 —— 终端（shell）。

这一转变虽然尚未被广泛讨论，但其潜在影响可能远超当前主流的代码编辑工具。

从代码到终端：AI 编程的新阶段

传统的 AI 编程工具主要聚焦于代码层面的辅助：

提供代码片段
补全函数调用
建议重构方案
调试建议

这些功能确实提升了开发效率，但它们本质上仍是在“代码之上”的操作。

而如今，Anthropic、DeepMind 和 OpenAI 等机构已纷纷推出支持命令行交互的 AI 工具：

工具	公司	功能亮点
Claude Code	Anthropic	支持命令行执行、脚本调试、环境配置
Gemini CLI	Google DeepMind	可运行 shell 命令、执行自动化任务
CLI Codex	OpenAI（研究项目）	基于 Codex 的终端代理实验

这些工具不再局限于编辑器内的代码生成，而是直接与操作系统交互，执行安装、部署、测试等复杂流程。

正如 Terminal-Bench 联合创始人 Mike Merrill 所说：

“我们的重大赌注是，未来95%的语言模型与计算机的交互将通过类似终端的界面进行。”

主流编辑器的局限性

尽管基于代码的 AI 编辑器曾一度被视为 AI 编程的未来方向，但近期的一些事件与研究揭示了其局限性。

📉 Windsurf 的动荡

高管团队被 Google 挖角
公司主体被 Cognition 收购
消费级产品前景不明朗

这不仅影响了用户信心，也引发了关于 AI 编辑器可持续性的讨论。

⏱️ Cursor Pro 的真实表现

一项由 METR 发布的研究发现：

尽管开发者估计使用 Cursor Pro 可提高 20%-30% 的效率，但实际测试中却显示出近 20% 的性能下降。

这意味着，某些 AI 编辑器可能并未真正提升生产力，反而增加了调试成本。

终端作为通用接口的优势

终端之所以成为 AI 新一轮发展的焦点，是因为它在整个开发流程中处于一个极其基础且统一的位置。

Warp 创始人 Zach Lloyd 指出：

“终端在开发者技术栈中处于非常低的层次，因此它是运行智能体的最通用场所。”

相比 IDE 或编辑器插件，终端具有以下优势：

✅ 统一接口：适用于所有系统（Linux、macOS、Windows）
✅ 更广控制力：不仅能处理代码，还能执行部署、配置、调试等 DevOps 任务
✅ 更少依赖：无需特定 IDE 或平台即可运行
✅ 更强扩展性：可连接远程服务器、容器、CI/CD 流水线等

这也解释了为何 Warp 等新兴公司能迅速崛起，并在 TerminalBench 排名第一。

TerminalBench：评估终端智能体的新标准

TerminalBench 是一套专门用于评估 AI 在终端环境下解决问题能力的基准测试集，涵盖从简单脚本执行到复杂系统配置的多种任务。

与 SWE-Bench（专注于 GitHub 上的代码修复）不同，TerminalBench 强调：

🧪 环境复杂性：不仅给出问题描述，还设定复杂的初始状态；
🧩 推理链挑战：如逆向工程压缩算法、构建 Linux 内核等；
💡 多步骤执行：需要逐步尝试、调试并修正错误，最终达成目标。

例如：

一个测试题要求智能体根据解压程序反推压缩算法；
另一个则要求从源码构建 Linux 内核，但不提示如何下载源码；

这些问题模拟了现实开发中的典型场景 —— 并非只需“写出正确代码”，还需理解整个系统环境。

目前，即便是最先进的终端 AI 如 Warp，也只能解决略高于一半的问题，说明这一领域仍有大量探索空间。

终端智能体的实际价值

尽管终端 AI 目前尚不能完全替代程序员，但它已经在多个方面展现出显著潜力：

✅ 自动设置新项目：识别依赖项、初始化 Git、配置 CI/CD；
✅ 诊断构建失败原因：解析日志、推荐修复策略；
✅ 执行自动化运维任务：配置服务、检查权限、运行测试；
✅ 解释复杂命令：帮助开发者理解 shell 命令的作用与风险。

Zach Lloyd 表示：

“想想每天设置新项目的繁琐工作，Warp 几乎可以自主完成。如果它无法完成，它会告诉你原因。”

这种能力使得终端 AI 成为开发者日常工作的理想协作者。

未来展望：从“代码助手”到“系统助手”

AI 编程工具正经历一次关键转型：

阶段	工具类型	核心能力	代表产品
第一阶段	AI 编辑器	代码补全、重构建议	Cursor、Windsurf、Copilot
第二阶段	终端代理	执行命令、解决问题、系统控制	Claude Code、Gemini CLI、Warp

这不仅是工具形式的变化，更是 AI 与软件交互层级的跃迁：