多年来,像 Cursor、Windsurf 和 GitHub Copilot 这样的 AI 编辑器一直是人工智能驱动开发的代表产品。它们通过代码补全、上下文理解、智能建议等方式,帮助开发者提升编码效率。
然而,随着 AI 模型能力的不断增强,“氛围编码”(vibe coding)和“终端交互”的兴起正在悄然改变 AI 与软件开发之间的关系。
AI 不再只是写代码的助手,而是开始直接与系统的底层交互 —— 终端(shell)。
这一转变虽然尚未被广泛讨论,但其潜在影响可能远超当前主流的代码编辑工具。
从代码到终端:AI 编程的新阶段
传统的 AI 编程工具主要聚焦于代码层面的辅助:
- 提供代码片段
- 补全函数调用
- 建议重构方案
- 调试建议
这些功能确实提升了开发效率,但它们本质上仍是在“代码之上”的操作。
而如今,Anthropic、DeepMind 和 OpenAI 等机构已纷纷推出支持命令行交互的 AI 工具:
| 工具 | 公司 | 功能亮点 |
|---|---|---|
| Claude Code | Anthropic | 支持命令行执行、脚本调试、环境配置 |
| Gemini CLI | Google DeepMind | 可运行 shell 命令、执行自动化任务 |
| CLI Codex | OpenAI(研究项目) | 基于 Codex 的终端代理实验 |
这些工具不再局限于编辑器内的代码生成,而是直接与操作系统交互,执行安装、部署、测试等复杂流程。
正如 Terminal-Bench 联合创始人 Mike Merrill 所说:
“我们的重大赌注是,未来95%的语言模型与计算机的交互将通过类似终端的界面进行。”
主流编辑器的局限性
尽管基于代码的 AI 编辑器曾一度被视为 AI 编程的未来方向,但近期的一些事件与研究揭示了其局限性。
📉 Windsurf 的动荡
- 高管团队被 Google 挖角
- 公司主体被 Cognition 收购
- 消费级产品前景不明朗
这不仅影响了用户信心,也引发了关于 AI 编辑器可持续性的讨论。
⏱️ Cursor Pro 的真实表现
一项由 METR 发布的研究发现:
尽管开发者估计使用 Cursor Pro 可提高 20%-30% 的效率,但实际测试中却显示出近 20% 的性能下降。
这意味着,某些 AI 编辑器可能并未真正提升生产力,反而增加了调试成本。
终端作为通用接口的优势
终端之所以成为 AI 新一轮发展的焦点,是因为它在整个开发流程中处于一个极其基础且统一的位置。
Warp 创始人 Zach Lloyd 指出:
“终端在开发者技术栈中处于非常低的层次,因此它是运行智能体的最通用场所。”
相比 IDE 或编辑器插件,终端具有以下优势:
- ✅ 统一接口:适用于所有系统(Linux、macOS、Windows)
- ✅ 更广控制力:不仅能处理代码,还能执行部署、配置、调试等 DevOps 任务
- ✅ 更少依赖:无需特定 IDE 或平台即可运行
- ✅ 更强扩展性:可连接远程服务器、容器、CI/CD 流水线等
这也解释了为何 Warp 等新兴公司能迅速崛起,并在 TerminalBench 排名第一。
TerminalBench:评估终端智能体的新标准
TerminalBench 是一套专门用于评估 AI 在终端环境下解决问题能力的基准测试集,涵盖从简单脚本执行到复杂系统配置的多种任务。
与 SWE-Bench(专注于 GitHub 上的代码修复)不同,TerminalBench 强调:
- 🧪 环境复杂性:不仅给出问题描述,还设定复杂的初始状态;
- 🧩 推理链挑战:如逆向工程压缩算法、构建 Linux 内核等;
- 💡 多步骤执行:需要逐步尝试、调试并修正错误,最终达成目标。
例如:
- 一个测试题要求智能体根据解压程序反推压缩算法;
- 另一个则要求从源码构建 Linux 内核,但不提示如何下载源码;
这些问题模拟了现实开发中的典型场景 —— 并非只需“写出正确代码”,还需理解整个系统环境。
目前,即便是最先进的终端 AI 如 Warp,也只能解决略高于一半的问题,说明这一领域仍有大量探索空间。
终端智能体的实际价值
尽管终端 AI 目前尚不能完全替代程序员,但它已经在多个方面展现出显著潜力:
- ✅ 自动设置新项目:识别依赖项、初始化 Git、配置 CI/CD;
- ✅ 诊断构建失败原因:解析日志、推荐修复策略;
- ✅ 执行自动化运维任务:配置服务、检查权限、运行测试;
- ✅ 解释复杂命令:帮助开发者理解 shell 命令的作用与风险。
Zach Lloyd 表示:
“想想每天设置新项目的繁琐工作,Warp 几乎可以自主完成。如果它无法完成,它会告诉你原因。”
这种能力使得终端 AI 成为开发者日常工作的理想协作者。
未来展望:从“代码助手”到“系统助手”
AI 编程工具正经历一次关键转型:
| 阶段 | 工具类型 | 核心能力 | 代表产品 |
|---|---|---|---|
| 第一阶段 | AI 编辑器 | 代码补全、重构建议 | Cursor、Windsurf、Copilot |
| 第二阶段 | 终端代理 | 执行命令、解决问题、系统控制 | Claude Code、Gemini CLI、Warp |
这不仅是工具形式的变化,更是 AI 与软件交互层级的跃迁:
- 从前 AI 关注的是“如何写代码”
- 现在 AI 关注的是“如何让代码跑起来”















