Crawlers 如何影响 Wikimedia 项目的运作

Crawlers impact the operations of the Wikimedia projects

Source | HN Comments

文章探讨了爬虫对 Wikimedia 项目的影响。自2024年初以来，由于 AI 发展，抓取 Wikimedia 内容用于训练大型语言模型的需求激增，导致带宽使用量显著增长，其中65%的昂贵流量来自机器人。这种非人类流量给 Wikimedia 的基础设施带来了巨大负担，增加了运营成本，并影响了用户体验。文章强调了建立基础设施的负责任使用，呼吁平衡内容免费与基础设施可持续性，以支持 Wikimedia 项目、贡献者和人类对知识的访问。

Birgit Mueller, Wikimedia Foundation, Chris Danis, Wikimedia Foundation 和 Giuseppe Lavagetto, Wikimedia Foundation 撰写，发布于 2025 年 4 月 1 日，更新于 2025 年 4 月 17 日。

自 2024 年初以来，对 Wikimedia 志愿者社区创建的内容的需求显著增长，特别是对 Wikimedia Commons 上的 1.44 亿张图片、视频和其他文件的需求。本文将探讨这种趋势的原因及其影响。

Wikimedia projects 是世界上最大的开放知识集合。我们的网站对于寻找信息的人类，以及各种自动访问我们内容的，并将其作为产品核心输入的企业来说，都是宝贵的资源。最值得注意的是，这些内容一直是搜索引擎结果的关键组成部分，这反过来又将用户带回了我们的网站。但随着 AI 的兴起，这种动态正在发生变化：我们观察到请求量显着增加，其中大部分流量是由 scraping 机器人收集训练数据以用于大型语言模型（LLMs）和其他用例所驱动的。伴随更广泛的技术经济发展，通过包括 scraping、APIs 和批量下载等机制，对我们内容的自动化请求呈指数级增长。这种扩张在很大程度上发生在没有充分署名的情况下，而署名是推动新用户参与运动的关键，并对保持我们网站对所有人可用的底层基础设施造成了重大负担。

幕后视角： Jimmy Carter 的案例

当 Jimmy Carter 于 2024 年 12 月去世时，他在英文 Wikipedia 上的页面在一天内获得了超过 280 万的浏览量。这相对较高，但可以控制。与此同时，相当多的用户播放了 Carter 与 Ronald Reagan 在 1980 年总统辩论的 1.5 小时视频。这导致网络流量激增，使其正常速率翻了一番。结果，大约一个小时内，Wikimedia 的少量互联网连接完全被占用，导致一些用户的页面加载时间变慢。Site Reliability team 迅速做出反应，通过改变互联网连接的路径来减少拥塞。但是，这不应该引起任何问题，因为基金会有能力处理特殊事件期间的高流量峰值。那么发生了什么？

自 2024 年 1 月以来，我们看到用于下载多媒体内容的带宽使用量增长了 50%。这种增长并非来自人类读者，而主要是来自自动程序，这些程序抓取 Wikimedia Commons 开放许可图像目录，以便为 AI 模型提供图像。我们的基础设施旨在维持高关注度事件期间来自人类的突然流量峰值，但抓取机器人产生的流量是前所未有的，并带来了日益增长的风险和成本。

下图显示，自 2024 年初以来，对多媒体内容的基本带宽需求一直在稳步增长，并且没有放缓的迹象。基本使用量的增加意味着我们用于应对可能发生流量激增的特殊事件的空间减少了：我们大量的时间和资源都用于响应非人类流量。

Wikimedia 项目的多媒体带宽需求。

65% 最昂贵的流量来自机器人

Wikimedia Foundation 通过全球数据中心网络向其用户提供内容。这使我们能够为世界各地的读者提供更快、更无缝的体验。当一篇文章被多次请求时，我们会记住 - 或缓存 - 其内容在离用户最近的数据中心。如果一篇文章已经有一段时间没有被请求，则其内容需要从核心数据中心提供。然后，该请求从用户的位置一直“传输”到核心数据中心，查找请求的页面并将其提供回给用户，同时还在区域数据中心中缓存该页面以供后续用户使用。

虽然人类读者倾向于关注特定的 - 通常是相似的 - 主题，但 crawler 机器人倾向于“批量读取”大量页面并访问不太受欢迎的页面。这意味着这些类型的请求更有可能被转发到核心数据中心，这在消耗我们的资源方面成本更高。

在对我们的系统进行迁移时，我们注意到只有一小部分昂贵的流量会像 Web 浏览器通常那样运行，解释 JavaScript 代码。当我们仔细观察时，我们发现至少 65% 的网站资源消耗流量来自机器人，考虑到来自机器人的总页面浏览量约占总数的 35%，这是一个不成比例的数字。这种高使用率也给我们的 Site Reliability 团队带来了持续的干扰，他们必须阻止来自这些 crawlers 的大量流量，以防止它们给我们的读者带来问题。

Wikimedia 并非唯一面临这一挑战的。正如我们在 2025 年的全球趋势报告中所指出的那样，科技公司正在竞相抓取网站以获取人类创建和验证的信息。内容发布商、开源项目和各种网站都报告了类似的问题。此外，crawlers 倾向于访问任何 URL。在 Wikimedia 基础设施中，我们不仅观察到对 Wikimedia 项目的抓取，还观察到对我们开发人员基础设施中的关键系统的抓取，例如我们的代码审查平台或我们的错误跟踪器。所有这些都会消耗我们需要用来支持 Wikimedia 项目、贡献者和读者的时间和资源。

我们的内容是免费的，但我们的基础设施不是：建立基础设施的负责任使用

提供值得信赖的内容也意味着支持“知识即服务”模型，我们承认整个互联网都依赖于 Wikimedia 内容。但这必须以对我们可持续的方式进行：我们如何才能继续支持我们的社区，同时又限制自动内容消耗？我们如何才能将开发人员和重用者引导到首选的、受支持的访问渠道？我们需要哪些指导来激励负责任的内容重用？我们已经开始系统地解决这些问题，并将重点放在为开发人员和重用者建立可持续的方式，以便在基金会即将到来的财政年度中访问知识内容。您可以在我们的年度计划草案中阅读更多内容：WE5：基础设施的负责任使用。我们的内容是免费的，但我们的基础设施不是：我们需要立即采取行动，以重建健康的平衡，以便我们可以将我们的工程资源用于支持和优先考虑 Wikimedia 项目、我们的贡献者以及人类对知识的访问。