AI爬虫冲击维基共享资源，带宽需求激增50%

早报3天前发布小马良

33 0

维基媒体基金会本周三披露了一个令人关注的现象：其旗下的多媒体资源库维基共享资源（Wikimedia Commons）自2024年1月以来下载带宽消耗飙升了50%。然而，这一流量激增并非来自人类用户，而是源于训练AI模型的自动化爬虫程序。

基础设施面临巨大压力

维基媒体基金会是一个运营维基百科等众包知识项目的非营利组织。该组织在博客中指出，其基础设施原本是为了应对人类用户的突发流量而设计的，但如今爬虫程序产生的数据需求已经超出了预期，带来了日益增长的风险和成本。

作为开放许可和公共领域多媒体资源的集散地，维基共享资源正面临前所未有的压力。深入分析数据显示，在最消耗资源的流量中，近65%来自爬虫程序，但这些自动化访问仅占总页面浏览量的35%。

爬虫与人类用户的不同访问模式

维基媒体解释称，这种差异源于内容分发机制。人类用户通常会访问热门内容，而这些内容会被缓存在离用户较近的服务器上，从而降低带宽消耗。然而，爬虫程序则会批量抓取大量页面，包括冷门内容，这些内容需要从核心数据中心调取，运营成本显著更高。

博客中写道：“人类读者通常聚焦于特定主题，而爬虫会批量抓取大量页面，包括冷门内容。这类请求更可能触发核心数据中心的响应，极大加重了资源负担。”目前，维基媒体技术团队不得不投入大量精力拦截恶意爬虫，以保障普通用户能够正常访问。然而，这还尚未计入因此产生的云服务成本激增。

全球性趋势与行业反应

这一现象实际上反映了威胁开放互联网存续的全球性趋势。上个月，开源倡导者 Drew DeVault 曾批评 AI 爬虫无视阻拦自动化访问的 robots.txt 协议；工程师 Gergely Orosz 也指控 Meta 等公司的爬虫导致其项目带宽成本暴涨。

面对这一挑战，开发者正在展开反击。部分科技公司已经采取行动，例如 Cloudflare 近期推出了“AI 迷宫”系统，利用 AI 生成内容来拖慢爬虫速度。然而，这场“猫鼠游戏”可能会迫使更多内容平台转向登录墙和付费墙，最终损害所有网络用户的利益。

维基媒体的警示

正如维基媒体所警示的那样：“当开放资源被过度索取，互联网的共享精神正面临严峻考验。” 维基共享资源作为一个重要的公共资源库，其面临的挑战凸显了在 AI 技术快速发展的同时，如何平衡技术创新与公共资源保护的重要性。（来源）

早报 # AI爬虫 # 维基共享资源

文章版权归作者所有，未经允许请勿转载。

xAI宣布 Grok 3 模型免费开放，推理和深度搜索功能都可以免费使用

早报 # Grok 3 # xAI # 推理模式

1个月前

0850

通义灵码全新升级：支持 DeepSeek-V3 和 DeepSeek-R1 满血版模型

早报 # AI编程 # 通义灵码 # 阿里巴巴

2个月前

0590

OpenAI 计划推出专业 AI“代理”，定价高达每月 20,000 美元

早报 # AI代理 # OpenAI

1个月前

0500

Grok上线全新语音交互模式，支持18+模式

早报 # Grok # 语音

1个月前

01360

暂无评论

暂无评论...

AI爬虫冲击维基共享资源，带宽需求激增50%

基础设施面临巨大压力

爬虫与人类用户的不同访问模式

全球性趋势与行业反应

维基媒体的警示

Anthropic 推出 Claude 教育版，进军高等教育领域

高通收购越南 VinAI 生成式 AI 部门，加码边缘 AI 布局

相关文章

xAI宣布 Grok 3 模型免费开放，推理和深度搜索功能都可以免费使用

通义灵码全新升级：支持 DeepSeek-V3 和 DeepSeek-R1 满血版模型

OpenAI 计划推出专业 AI“代理”，定价高达每月 20,000 美元

Grok上线全新语音交互模式，支持18+模式

暂无评论

文章

使用ComfyUI轻松制作“苦命小人”Q版头像，教程来了！

新微软旗下的AI编程助手GitHub Copilot引入新限制，对高级AI模型的使用收费

新OpenAI调整路线图：推迟GPT-5，推出o3和o4-mini

Wan2.1原生首尾帧视频生成工作流：支持多种模型优化节点且支持 LoRA 模型

新AI版权争议新证据：新研究揭示OpenAI模型可能“记住”受版权内容

新通过推理计算来提高通用奖励建模（RM）的推理时间可扩展性

朱雀大模型检测

新Genspark

Open ASR 排行榜

Google AI Studio

Qwen Chat

Yourware.so

AI爬虫冲击维基共享资源，带宽需求激增50%

基础设施面临巨大压力

爬虫与人类用户的不同访问模式

全球性趋势与行业反应

维基媒体的警示

Anthropic 推出 Claude 教育版，进军高等教育领域

高通收购越南 VinAI 生成式 AI 部门，加码边缘 AI 布局

相关文章

文章

标签云

网址

朱雀大模型检测

新Genspark

Open ASR 排行榜

Google AI Studio

Qwen Chat

Yourware.so