
近年来,随着 AI 大模型对训练数据需求的激增,AI 爬虫已成为许多小型网站和开源项目的“隐形威胁”——它们频繁访问、无视 robots.txt 规则,甚至造成服务器负载过高,严重影响正常用户的访问体验。

为应对这一问题,加拿大开发者 Xe Iaso 推出了一个名为 Anubis 的开源网络防火墙工具。它通过验证访问者是否具备“人类行为特征”,有效阻止了大规模 AI 爬虫的侵扰,同时尽量减少对真实用户的干扰。
自 2025 年 1 月推出以来,Anubis 已被下载近 20 万次,并被 GNOME、FFmpeg、Wine、FreeCAD、Linux 内核邮件列表、GitLab 镜像站等多个知名开源项目和联合国教科文组织(UNESCO)等机构采用。
🛡️ 核心功能与工作原理
✅ 无验证码挑战机制
Anubis 不依赖传统 CAPTCHA 验证码,而是利用浏览器特性自动执行一系列加密数学运算,以判断访问者是否为真实用户。
- 浏览器默认支持 JavaScript 执行;
- AI 爬虫需模拟完整浏览器环境才能通过验证;
- 每次验证成本对爬虫而言极高,难以大规模实施;
这种机制对普通用户几乎透明,而对自动化爬虫却构成了实质性的计算负担。
⚙️ 双重验证机制
Anubis 使用 JavaScript 和 Cookie 进行真实性验证:
- 若浏览器能运行 JavaScript,则要求执行特定加密任务;
- 若禁用 JavaScript,则尝试其他非加密方式识别访问者身份;
目前仍在开发中的“无 JS 验证方案”将进一步提升兼容性,满足注重隐私用户的需要。
🔍 自托管 & 轻量化设计
Anubis 是一款完全开源、可自托管的轻量级中间件,部署灵活,几乎可在任何 Web 服务器上运行:
- 支持 Docker、Nginx、Traefik 等常见部署方式;
- 对系统资源消耗极低,适合个人站点和小型组织使用;
- 不依赖第三方服务,确保隐私与控制权;
🎯 应用场景与实际效果
📈 主要目标群体
- 小型网站管理员:无法承受 Cloudflare 或商业防护服务的成本;
- 开源项目维护者:希望保护 API、文档、镜像站免受爬虫攻击;
- 教育/科研机构:如杜克大学图书馆系统,已成功拦截每日超 400 万次无效请求;
- 社区驱动平台:避免被 AI 公司抓取内容用于训练闭源模型;
📊 实际应用案例
- GNOME:防止桌面环境相关资源被滥用;
- FFmpeg / Wine / FreeCAD:保护文档和软件下载页面;
- Linux 内核邮件归档:减轻机器人带来的带宽压力;
- UNESCO:保障教育与文化类内容的访问稳定性;
杜克大学图书馆报告称,启用 Anubis 后,非必要流量减少了约 90%,整体性能显著提升。
⚖️ 设计理念与平衡之道
Anubis 的核心思想是通过制造高昂的计算成本来遏制 AI 爬虫的大规模采集行为。其优势在于:
- 不对人设限:不影响真实用户的访问体验;
- 对机器设障:增加爬虫的算力开销,使其经济上不可持续;
- 可配置性强:允许白名单机制,避免误伤“有益机器人”;
然而,这种策略也带来了新的挑战:
- 可能屏蔽合法爬虫:如 Internet Archive 等“善意机器人”;
- JavaScript 依赖问题:部分隐私导向浏览器会禁用脚本;
- 模式破解风险:若爬虫绕过机制,将失去防御效力;
对此,Iaso 表示正在构建一个“已知有益机器人白名单”,旨在在内容可发现性与服务可用性之间取得平衡。
🧠 技术亮点总结
| 特性 | 描述 |
|---|---|
| 非 CAPTCHA 验证 | 利用浏览器行为进行验证,无需用户交互 |
| 加密挑战机制 | 通过数学运算制造高计算成本,阻断爬虫 |
| 可自托管 | 完全开源,支持多种部署方式 |
| 轻量高效 | 几乎不占用服务器资源 |
| 支持白名单 | 避免误拦“友好爬虫” |
| 正在开发无 JS 方案 | 提升兼容性,适应更多用户场景 |
🧩 开发者视角下的 Anubis
对于开发者来说,Anubis 提供了一种低成本、高效率的反爬虫解决方案,尤其适用于:
- 无法接入 CDN 或 WAF 的独立网站;
- 需要防止内容被盗用的开源项目;
- 希望保持服务稳定性的学术与非营利机构;
此外,Anubis 的架构也为研究 AI 爬虫行为提供了宝贵的数据基础和实践样本。
📈 当前发展与未来方向
尽管 Anubis 目前仍由 Xe Iaso 一人在业余时间维护,但其影响力已远超预期。未来计划包括:
- 引入非加密挑战机制,降低 CPU 占用;
- 构建“有益机器人”白名单数据库;
- 提供更丰富的日志与分析功能;
- 支持更多部署平台,如 Kubernetes、Cloudflare Workers 等;
Iaso 在接受采访时表示:
“开发 Anubis 最大的挑战,是在阻止恶意爬虫的同时,避免误伤真实用户。这是一场标准的、几乎不可能完成的任务。”
数据统计
相关导航


zdoc

AI 视频图文创作助手(AI-Media2Doc)

Penpot

Nothing Playground

Nodezator

Claude Code 哲学家点火器






