如果有机会,请务必多铺设一些网络光纤电缆
由于作者的反爬虫措施,你可能无法正常访问其博客。原因是大量爬虫使用旧版浏览器 User-Agent,尤其是 Chrome,导致服务器负载过高。作者正在尝试阻止这些爬虫,但可能误伤了使用旧版浏览器的用户。如果遇到此问题,请联系作者提供浏览器信息。此外,作者建议使用 archive.org 替代 archive.* 系列存档网站,因为后者抓取行为难以区分恶意爬虫,且使用了旧的 Chrome User-Agent。
你正在使用一个可疑的旧浏览器
你可能看到此页面,是因为你尝试访问我的博客 (Wandering Thoughts) 或 CSpace,即它所属的 Wiki。不幸的是,你正在使用的浏览器版本我的反爬虫预防措施认为可疑,通常是因为它太旧了(通常适用于 Chrome 的版本)。不幸的是,截至 2025 年初,出现了一大批高流量爬虫(显然部分原因是为了收集数据以进行 LLM 训练),它们使用各种旧的浏览器 User-Agent,尤其是 Chrome User-Agent。为了减少Wandering Thoughts 上的负载,我正在尝试(试图)阻止所有这些爬虫,而你遇到了这种情况。
如果这是错误的,并且你正在使用你选择的浏览器的最新版本,你可以通过我在大学的当前位置 与我联系(你应该能够从那里推断出电子邮件地址)。如果可能,请告诉我你正在使用的浏览器等等,最好是提供其确切的 User-Agent 字符串。
给使用 archive.* 的用户的特别提示
你可能通过 archive.today、archive.ph、archive.is 等看到此内容。不幸的是,archive.* 以一种无法与恶意行为者区分的方式抓取页面进行存档。他们使用旧的 Chrome User-Agent 值,从广泛分布且未明确标识为他们的 IP 地址块进行爬取,并且他们的一些 IP 地址具有伪造的反向 DNS 条目,声称他们是 googlebot IP 地址(这通常只由非常糟糕的行为者完成)。我建议你使用 archive.org,这是一个行为更好的存档爬虫,可以抓取我的博客 (Wandering Thoughts)。
Chris Siebenmann, 2025-02-17