Open Source 开发者称 AI crawler 占据主导流量,迫使封锁整个国家

渴望数据的 AI 机器人正在意外地击垮 FOSS 站点,但人类正在反击。

Benj Edwards – Mar 25, 2025 9:36 PM | 49 man sitting in sofa in a flooded living room, feets in water, writing on a laptop man sitting in sofa in a flooded living room, feets in water, writing on a laptop Credit: Henrik Sorensen via Getty Images

今年早些时候,软件开发者 Xe Iaso 到达了崩溃点,来自 Amazon 的侵略性 AI crawler 流量压垮了他们的 Git 仓库服务,反复导致不稳定和停机。尽管配置了标准防御措施——调整 robots.txt、阻止已知的 crawler user-agent 以及过滤可疑流量——Iaso 发现 AI crawler 持续逃避所有阻止尝试,欺骗 user-agent 并通过住宅 IP 地址作为代理进行循环。

为了找到解决方案,Iaso 最终求助于将他们的服务器移至 VPN 之后,并创建了“Anubis”,这是一个定制的 proof-of-work 挑战系统,该系统强制 Web 浏览器在访问站点之前解决计算难题。“阻止 AI crawler 机器人是徒劳的,因为它们会撒谎,更改其 user agent,使用住宅 IP 地址作为代理等等,”Iaso 在一篇名为“绝望的求救”的博客文章中写道。“我不想被迫关闭我的 Gitea 服务器,但如果我必须这样做,我也会。”

Iaso 的故事凸显了一个更广泛的危机,该危机正在开源社区中迅速蔓延,因为看起来具有侵略性的 AI crawler 越来越多地使社区维护的基础设施超载,从而对重要的公共资源造成持续的分布式拒绝服务 (DDoS) 攻击。根据 LibreNews 最近一份综合报告,一些开源项目现在发现高达 97% 的流量来自 AI 公司的机器人,这极大地增加了带宽成本、服务不稳定,并加重了本已捉襟见肘的维护者的负担。

Ars Video

Fedora Pagure 项目系统管理员团队的成员 Kevin Fenzi 在他的博客上报告,在多次尝试缓解机器人流量失败后,该项目不得不阻止来自巴西的所有流量。GNOME GitLab 实施了 Iaso 的“Anubis”系统,要求浏览器在访问内容之前解决计算难题。GNOME 系统管理员 Bart Piotrowski 在 Mastodon 上分享说,只有大约 3.2% 的请求(84,056 个中的 2,690 个)通过了他们的挑战系统,这表明绝大多数流量是自动化的。LibreNews 援引 KDE Development 聊天记录称,KDE 的 GitLab 基础设施因来自 Alibaba IP 范围的 crawler 流量而暂时脱机。

虽然 Anubis 已被证明可以有效地过滤掉机器人流量,但它也给合法用户带来了缺点。当许多人同时访问同一链接时(例如,在聊天室中共享 GitLab 链接时),站点访问者可能会面临严重的延迟。据该新闻媒体报道,一些移动用户报告说,他们最多等待了两分钟才能完成 proof-of-work 挑战。

这种情况并非新鲜事。去年 12 月,Diaspora 社交网络的基础设施维护者 Dennis Schubert 在发现 AI 公司占其服务的所有 Web 请求的 70% 后,将这种情况描述为“实际上是对整个互联网的 DDoS”。

成本包括技术和财务两方面。Read the Docs 项目报告说,阻止 AI crawler 立即使他们的流量减少了 75%,从每天 800GB 减少到每天 200GB。根据他们的博客文章“AI crawler 需要更加尊重”,这一变化为该项目每月节省了大约 1,500 美元的带宽成本。

开源项目承受着不成比例的负担

这种情况给开源项目带来了严峻的挑战,这些项目依赖于公共协作,并且与商业实体相比,通常以有限的资源运作。许多维护人员报告说,AI crawler 会故意规避标准阻止措施,忽略 robots.txt 指令、欺骗 user agent 并轮换 IP 地址以避免被检测到。

正如 LibreNews 报道的那样,来自 Inkscape 项目的 Martin Owens 在 Mastodon 上指出,他们的问题不仅仅来自“去年常见的中国 DDoS,还来自大量公司开始忽略我们的爬虫配置并开始欺骗他们的浏览器信息”。Owens 补充说:“我现在有一个惊人的阻止列表。如果您碰巧在一家大型 AI 公司工作,您可能无法再访问我们的网站。”

在 Hacker News 上,关于 LibreNews 上周的文章评论和一月份关于 Iaso 的战斗的文章表达了对他们认为 AI 公司对开源基础设施的掠夺行为的极度沮丧。虽然这些评论来自论坛帖子,而不是官方声明,但它们代表了开发者中的一种普遍情绪。

正如一位 Hacker News 用户所说的那样,AI 公司以“善意无关紧要”的态度和“1000 亿美元的资本”运作。讨论描绘了较小的 AI 初创公司与受影响的项目进行了协作,而较大的公司则无动于衷,尽管据称它们给开源项目维护者带来了数千美元的带宽成本。

除了消耗带宽之外,crawler 通常会访问昂贵的端点,例如 git blame 和日志页面,从而给本已有限的资源带来额外的压力。SourceHut 的创始人 Drew DeVault 在他的博客上报告说,crawler 会访问“每个 git 日志的每个页面,以及您存储库中的每个提交”,这使得攻击对于代码存储库来说尤其繁重。

问题不仅仅在于基础设施压力。正如 LibreNews 指出的那样,一些开源项目早在 2023 年 12 月就开始收到 AI 生成的错误报告,Curl 项目的 Daniel Stenberg 首先在他的博客上在 2024 年 1 月的一篇文章报道。这些报告乍一看似乎是合法的,但包含捏造的漏洞,浪费了宝贵的开发人员时间。

谁应该负责,他们为什么要这样做?

AI 公司有不问自取的历史。在 AI 图像生成器和 ChatGPT 的主流突破在 2022 年引起人们对这种做法的关注之前,机器学习领域经常在很少考虑所有权的情况下编译数据集。

虽然许多 AI 公司都在进行 Web 抓取,但消息来源表明责任和影响的程度各不相同。Dennis Schubert 对 Diaspora 流量日志的分析表明,大约四分之一的网络流量来自具有 OpenAI user agent 的机器人,而 Amazon 占 15%,Anthropic 占 4.3%。

crawler 的行为表明了不同的可能动机。一些人可能正在收集训练数据来构建或改进大型语言模型,而另一些人可能正在执行实时搜索,以便用户向 AI 助手询问信息。

这些抓取的频率尤其能说明问题。Schubert 观察到,AI crawler“不仅仅抓取一次页面然后就离开。哦,不,他们每 6 小时回来一次,因为 lol 为什么不呢。”这种模式表明持续的数据收集,而不是一次性的训练练习,可能表明公司正在使用这些抓取来保持其模型的知识最新。

一些公司似乎比其他公司更具侵略性。KDE 的系统管理员团队报告说,来自 Alibaba IP 范围的 crawler 负责暂时使他们的 GitLab 脱机。与此同时,Iaso 的麻烦来自 Amazon 的 crawler。KDE 系统管理员团队的一名成员告诉 LibreNews,像 OpenAI 和 Anthropic 这样的西方 LLM 运营商至少设置了正确的 user agent 字符串(理论上允许网站阻止它们),而据报道,一些中国 AI 公司在其方法上更具欺骗性。

目前尚不清楚为什么这些公司不采用更具协作性的方法,并且至少对其数据收集运行进行速率限制,以免使源网站不堪重负。Amazon、OpenAI、Anthropic 和 Meta 没有立即回复置评请求,但如果他们回复,我们将更新这篇文章。

焦油坑和迷宫:日益增长的抵抗力

为了应对这些攻击,出现了一些新的防御工具来保护网站免受不需要的 AI crawler 的侵害。正如 Ars 在 1 月份报道的那样,一位仅被称为“Aaron”的匿名创建者设计了一种名为“Nepenthes”的工具,用于将 crawler 困在由虚假内容组成的无尽迷宫中。Aaron 明确地将其描述为“具有攻击性的恶意软件”,旨在浪费 AI 公司的资源并可能毒害其训练数据。

“每当这些 crawler 之一从我的焦油坑中提取数据时,都是他们已经消耗并且必须支付硬币的资源,”Aaron 向 Ars 解释说。“这有效地提高了他们的成本。而且看到他们还没有人盈利,这对他们来说是一个大问题。”

上周五,Cloudflare 宣布了“AI Labyrinth”,这是一种类似但更商业化的方法。与被设计为针对 AI 公司的攻击性武器的 Nepenthes 不同,Cloudflare 将其工具定位为一种合法的安全功能,用于保护网站所有者免受未经授权的抓取,正如我们当时报道的那样。

Cloudflare 在其声明中解释说:“当我们检测到未经授权的抓取时,我们不会阻止该请求,而是会链接到一系列 AI 生成的页面,这些页面足够令人信服,可以吸引 crawler 遍历它们。”该公司报告说,AI crawler 每天在其网络上生成超过 500 亿个请求,占他们处理的所有 Web 流量的近 1%。

社区还在开发协作工具来帮助防御这些 crawler。“ai.robots.txt”项目提供了一个与 AI 公司相关的 Web crawler 的开放列表,并提供了预制的 robots.txt 文件,这些文件实现了 Robots Exclusion Protocol,以及在检测到 AI crawler 请求时返回错误页面的 .htaccess 文件。

就目前的情况来看,AI 生成的内容的快速增长淹没了在线空间,以及 AI 公司具有侵略性的 Web 抓取行为,都威胁着重要在线资源的可持续性。一些大型 AI 公司目前采取的方法——在没有明确同意或补偿的情况下,从开源项目中提取大量数据——可能会严重损害这些 AI 模型所依赖的数字生态系统。

如果 AI 公司直接与受影响的社区合作,则可以实现负责任的数据收集。但是,主要的行业参与者几乎没有表现出采用更合作的做法的动力。如果没有有意义的监管或 AI 公司的自我约束,数据饥渴的机器人和试图捍卫开源基础设施的人之间的军备竞赛似乎可能会进一步升级,从而可能加深现代互联网基础的数字生态系统的危机。