Anubis

5个月前发布 182 00

Anubis 是当前对抗 AI 爬虫的一种创新且实用的工具。它不依赖于复杂的基础设施,也不需要高昂的费用,而是通过巧妙利用浏览器行为差异,实现了有效的访问控制。对于中小型网站、开源项目和教育科研机构而言,Anubis 提供了一个强大、易用、可持续发展的安全屏障,帮助他们抵御来自 AI 数据采集的压力。

所在地:
加拿大
收录时间:
2025-07-10
其他站点:

近年来,随着 AI 大模型对训练数据需求的激增,AI 爬虫已成为许多小型网站和开源项目的“隐形威胁”——它们频繁访问、无视 robots.txt 规则,甚至造成服务器负载过高,严重影响正常用户的访问体验。

为应对这一问题,加拿大开发者 Xe Iaso 推出了一个名为 Anubis 的开源网络防火墙工具。它通过验证访问者是否具备“人类行为特征”,有效阻止了大规模 AI 爬虫的侵扰,同时尽量减少对真实用户的干扰。

自 2025 年 1 月推出以来,Anubis 已被下载近 20 万次,并被 GNOME、FFmpeg、Wine、FreeCAD、Linux 内核邮件列表、GitLab 镜像站等多个知名开源项目和联合国教科文组织(UNESCO)等机构采用。

🛡️ 核心功能与工作原理

✅ 无验证码挑战机制

Anubis 不依赖传统 CAPTCHA 验证码,而是利用浏览器特性自动执行一系列加密数学运算,以判断访问者是否为真实用户。

  • 浏览器默认支持 JavaScript 执行;
  • AI 爬虫需模拟完整浏览器环境才能通过验证;
  • 每次验证成本对爬虫而言极高,难以大规模实施;

这种机制对普通用户几乎透明,而对自动化爬虫却构成了实质性的计算负担。

⚙️ 双重验证机制

Anubis 使用 JavaScript 和 Cookie 进行真实性验证:

  • 若浏览器能运行 JavaScript,则要求执行特定加密任务;
  • 若禁用 JavaScript,则尝试其他非加密方式识别访问者身份;

目前仍在开发中的“无 JS 验证方案”将进一步提升兼容性,满足注重隐私用户的需要。

🔍 自托管 & 轻量化设计

Anubis 是一款完全开源、可自托管的轻量级中间件,部署灵活,几乎可在任何 Web 服务器上运行:

  • 支持 Docker、Nginx、Traefik 等常见部署方式;
  • 对系统资源消耗极低,适合个人站点和小型组织使用;
  • 不依赖第三方服务,确保隐私与控制权;

🎯 应用场景与实际效果

📈 主要目标群体

  • 小型网站管理员:无法承受 Cloudflare 或商业防护服务的成本;
  • 开源项目维护者:希望保护 API、文档、镜像站免受爬虫攻击;
  • 教育/科研机构:如杜克大学图书馆系统,已成功拦截每日超 400 万次无效请求;
  • 社区驱动平台:避免被 AI 公司抓取内容用于训练闭源模型;

📊 实际应用案例

  • GNOME:防止桌面环境相关资源被滥用;
  • FFmpeg / Wine / FreeCAD:保护文档和软件下载页面;
  • Linux 内核邮件归档:减轻机器人带来的带宽压力;
  • UNESCO:保障教育与文化类内容的访问稳定性;

杜克大学图书馆报告称,启用 Anubis 后,非必要流量减少了约 90%,整体性能显著提升。

⚖️ 设计理念与平衡之道

Anubis 的核心思想是通过制造高昂的计算成本来遏制 AI 爬虫的大规模采集行为。其优势在于:

  • 不对人设限:不影响真实用户的访问体验;
  • 对机器设障:增加爬虫的算力开销,使其经济上不可持续;
  • 可配置性强:允许白名单机制,避免误伤“有益机器人”;

然而,这种策略也带来了新的挑战:

  • 可能屏蔽合法爬虫:如 Internet Archive 等“善意机器人”;
  • JavaScript 依赖问题:部分隐私导向浏览器会禁用脚本;
  • 模式破解风险:若爬虫绕过机制,将失去防御效力;

对此,Iaso 表示正在构建一个“已知有益机器人白名单”,旨在在内容可发现性与服务可用性之间取得平衡。

🧠 技术亮点总结

特性描述
非 CAPTCHA 验证利用浏览器行为进行验证,无需用户交互
加密挑战机制通过数学运算制造高计算成本,阻断爬虫
可自托管完全开源,支持多种部署方式
轻量高效几乎不占用服务器资源
支持白名单避免误拦“友好爬虫”
正在开发无 JS 方案提升兼容性,适应更多用户场景

🧩 开发者视角下的 Anubis

对于开发者来说,Anubis 提供了一种低成本、高效率的反爬虫解决方案,尤其适用于:

  • 无法接入 CDN 或 WAF 的独立网站;
  • 需要防止内容被盗用的开源项目;
  • 希望保持服务稳定性的学术与非营利机构;

此外,Anubis 的架构也为研究 AI 爬虫行为提供了宝贵的数据基础和实践样本。

📈 当前发展与未来方向

尽管 Anubis 目前仍由 Xe Iaso 一人在业余时间维护,但其影响力已远超预期。未来计划包括:

  • 引入非加密挑战机制,降低 CPU 占用;
  • 构建“有益机器人”白名单数据库;
  • 提供更丰富的日志与分析功能;
  • 支持更多部署平台,如 Kubernetes、Cloudflare Workers 等;

Iaso 在接受采访时表示:

“开发 Anubis 最大的挑战,是在阻止恶意爬虫的同时,避免误伤真实用户。这是一场标准的、几乎不可能完成的任务。”

数据统计

相关导航

ClipSketch AI (剪辑·素描)

ClipSketch AI (剪辑·素描)

ClipSketch AI 是一个专为视频创作者、社交媒体运营者和二创爱好者设计的全流程生产力工具。它不仅仅是一个视频播放器,更是一个AI 驱动的内容创作工作台。它可以解析 Bilibili 和小红书的视频链接,让你能够帧级精准地标记精彩瞬间。通过集成 Google Gemini 最新的多模态大模型,它能将这些瞬间一键转化为精美的手绘风格故事板,并自动撰写适配社交媒体(如小红书)的爆款文案。

暂无评论

none
暂无评论...