Get Started Free|Contact Sales The Cloudflare Blog

The Cloudflare Blog

Subscribe to receive notifications of new posts: Subscribe magnifier iconhamburger menu Zero Trust Developers Security Product News AI Radar Life at Cloudflare Speed & Reliability Partners Policy & Legal Zero Trust Developers Security Product News AI Radar Life at Cloudflare Speed & Reliability Partners Policy & Legal magnifier icon

Trapping misbehaving bots in an AI Labyrinth

2025-03-19

5 min read 今天,我们很高兴地宣布推出 AI Labyrinth,这是一种新的缓解方法,它使用 AI 生成的内容来减缓、迷惑和浪费不遵守“no crawl”指令的 AI Crawler 和其他 Bot 的资源。当您选择加入时,当检测到不适当的 Bot 活动时,Cloudflare 将自动部署一组 AI 生成的链接页面,而无需客户创建任何自定义规则。

AI Labyrinth 可供所有客户选择加入,包括 Free plan。

使用生成式 AI 作为防御武器

据报道,AI 生成的内容已经爆炸式增长,在去年秋天占据了 Facebook 前 20 名帖子中的四个 。此外,Medium 估计他们平台上 47% 的内容 是 AI 生成的。 像任何较新的工具一样,它既有精彩的用途,也有 恶意的 用途。

与此同时,我们也看到了 AI 公司使用的新型爬虫激增,它们抓取数据以进行模型训练。AI Crawler 每天向 Cloudflare 网络生成超过 500 亿个请求,几乎占我们看到的所有 Web 请求的 1%。 虽然 Cloudflare 提供了几种 识别和阻止未经授权的 AI 爬取 的工具,但我们发现阻止恶意 Bot 可能会提醒攻击者您已经发现他们,从而导致方法转变,并陷入永无止境的军备竞赛。因此,我们想创建一种新的方法来阻止这些不需要的 Bot,而不会让他们知道自己已被阻止。

为此,我们决定使用 Bot 创建者工具集中的一种新的进攻性工具,而我们实际上还没有看到这种工具被用于防御:AI 生成的内容。 当我们检测到未经授权的爬取时,我们不会阻止该请求,而是会链接到一系列 AI 生成的页面,这些页面足够令人信服,可以引诱爬虫遍历它们。 但是,虽然这些内容看起来很真实,但实际上并不是我们正在保护的站点的内容,因此爬虫会浪费时间和资源。

作为一项额外的好处,AI Labyrinth 还可以充当下一代蜜罐。 没有真正的人会深入到由 AI 生成的无意义迷宫中四个链接。 任何这样做的访问者都很有可能是一个 Bot,因此这为我们提供了一种全新的工具来识别和指纹识别不良 Bot,我们会将其添加到我们已知的恶意参与者列表中。 以下是我们如何做到的......

我们如何构建迷宫

当 AI 爬虫跟随这些链接时,它们会浪费宝贵的计算资源来处理无关内容,而不是提取您合法的网站数据。 这大大降低了它们收集足够有用信息来有效训练其模型的能力。

为了生成令人信服的类人内容,我们使用 Workers AI 和一个开源模型来创建关于各种主题的独特 HTML 页面。 我们没有按需创建此内容(这可能会影响性能),而是实施了一个预生成管道,该管道对内容进行清理以防止任何 XSS 漏洞,并将其存储在 R2 中以加快检索速度。 我们发现,首先生成一组多样化的主题,然后为每个主题创建内容,会产生更多样化和令人信服的结果。 对我们来说,重要的是我们不要生成不准确的内容,从而助长互联网上虚假信息的传播,因此我们生成的内容是真实的并且与科学事实相关,只是与正在爬取的站点无关或不专有。

这种预生成的内容通过我们的自定义 HTML 转换过程无缝集成到现有页面上的隐藏链接中,而不会破坏页面的原始结构或内容。 每个生成的页面都包含适当的元指令,以通过阻止搜索引擎索引来保护 SEO。 我们还通过仔细实施的属性和样式确保这些链接对人类访问者保持不可见。 为了进一步最大限度地减少对普通访问者的影响,我们确保仅向可疑的 AI 抓取工具显示这些链接,同时允许合法用户和经过验证的爬虫正常浏览。

A graph of daily requests over time, comparing different categories of AI Crawlers. A graph of daily requests over time, comparing different categories of AI Crawlers.

这种方法特别有效的原因在于它在我们不断发展的 Bot 检测系统中发挥的作用。 当这些链接被跟踪时,我们高度确信这是自动爬虫活动,因为人类访问者和合法的浏览器永远不会看到或点击它们。 这为我们提供了一种强大的识别机制,生成有价值的数据,这些数据会反馈到我们的机器学习模型中。 通过分析哪些爬虫正在跟踪这些隐藏的路径,我们可以识别新的 Bot 模式和签名,否则这些模式和签名可能无法被检测到。 这种积极主动的方法有助于我们领先于 AI 抓取工具,不断提高我们的检测能力,而不会中断正常的浏览体验。

通过在我们的开发者平台上构建此解决方案,我们创建了一个系统,可以立即提供令人信服的诱饵内容,同时保持一致的质量 - 所有这些都不会影响您网站的性能或用户体验。

如何使用 AI Labyrinth 阻止 AI 爬虫

启用 AI Labyrinth 非常简单,只需在您的 Cloudflare 仪表板中切换一个开关即可。 导航到您区域内的 Bot 管理部分,然后将新的 AI Labyrinth 设置切换为开启:

启用后,AI Labyrinth 会立即开始工作,无需额外的配置。

AI 蜜罐,由 AI 创建

AI Labyrinth 的核心优势在于混淆和分散 Bot 的注意力。 然而,次要好处是充当下一代蜜罐。 在这种情况下,蜜罐只是一个网站访问者看不到的隐形链接,但是 Bot 解析 HTML 会看到并单击它,从而表明它是一个 Bot。 早在 1986 年的杜鹃蛋事件 中,蜜罐就被用来抓捕黑客。 2004 年,Cloudflare 创始人(在创立 Cloudflare 之前)创建了 Project Honeypot,让每个人都可以轻松部署免费的电子邮件蜜罐,并收到爬虫 IP 的列表,以换取对数据库的贡献。 但是随着 Bot 的发展,它们现在会主动寻找隐藏链接等蜜罐技术,从而降低了这种方法的有效性。

AI Labyrinth 不会简单地添加隐形链接,而是最终会创建整个链接 URL 网络,这些网络更加逼真,并且自动化程序无法轻易发现。 页面上的内容显然是人类不会花时间消费的内容,但是 AI Bot 被编程为尽可能深入地爬取以收集尽可能多的数据。 当 Bot 访问这些 URL 时,我们可以确信它们不是真正的人,并且此信息会被记录下来并自动反馈到我们的机器学习模型中,以帮助改进我们的 Bot 识别。 这创建了一个有益的反馈循环,每次抓取尝试都有助于保护所有 Cloudflare 客户。

接下来是什么

这仅仅是我们使用生成式 AI 来阻止 Bot 的第一次迭代。 目前,虽然我们生成的内容在很大程度上令人信服,但它并不符合每个网站的现有结构。 将来,我们将继续努力使这些链接更难被发现,并使它们无缝地融入它们嵌入的网站的现有结构中。 您可以通过立即选择加入来帮助我们。

要采取下一步措施来对抗 Bot,请立即 选择加入 AI Labyrinth

Cloudflare 的连接云保护整个公司网络,帮助客户高效地构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,阻止黑客入侵,并可以帮助您实现 Zero Trust。从任何设备访问 1.1.1.1 以开始使用我们的免费应用程序,该应用程序可以使您的互联网更快更安全。要了解有关我们帮助构建更好的互联网的使命的更多信息,请从此处开始。如果您正在寻找新的职业方向,请查看我们的空缺职位

Discuss on Hacker News Security WeekBotsBot ManagementAI BotsAIMachine LearningGenerative AI Follow on X Reid Tatoris|@reidtatoris Cloudflare|@cloudflare Related posts March 21, 2025 1:00 PM

Cloudflare is now IRAP assessed at the PROTECTED level, furthering our commitment to the global public sector

Cloudflare is now assessed at the IRAP PROTECTED level, bringing our products and services to the Australian Public Sector.... By

Security Week, Compliance, Public Sector, IRAP March 21, 2025 1:00 PM

Enhance data protection in Microsoft Outlook with Cloudflare One’s new DLP Assist

Customers can now easily safeguard sensitive data in Microsoft Outlook with our new DLP Assist feature.... By

Security Week, Email Security, Data Loss, Data Loss Prevention March 21, 2025 1:00 PM

Detecting sensitive data and misconfigurations in AWS and GCP with Cloudflare One

Using Cloudflare’s CASB, integrate, scan, and detect sensitive data and misconfigurations in your cloud storage accounts.... By

Security Week, Cloudflare One, CASB, DLP, AWS, Google Cloud, Zero Trust March 21, 2025 1:00 PM

RDP without the risk: Cloudflare's browser-based solution for secure third-party access

Cloudflare now provides clientless, browser-based support for the Remote Desktop Protocol (RDP). It enables secure, remote Windows server access without VPNs or RDP clients.... By

Security Week, Zero Trust, Cloudflare Zero Trust, Acquisitions, Cloudflare Access, Cloudflare One, Clientless, Remote Work, VDI, Remote Desktop Protocol

facebookXlinkedinyoutubeinstagram © 2025 Cloudflare, Inc. | Privacy Policy | Terms of Use | Report Security Issues |Privacy OptionsCookie Preferences | Trademark