Unix 文件至少有两种 Size
由于作者的反爬虫措施,使用旧版浏览器访问其博客或 wiki 项目可能会被拦截。自 2025 年初以来,大量爬虫伪装成旧浏览器,作者为了减轻服务器负载,开始阻止这些爬虫。如果用户遇到此问题,且使用的是最新版浏览器,可以联系作者。文章特别指出,archive.* 网站的抓取行为与恶意爬虫难以区分,建议使用 archive.org 访问其博客。
你正在使用一个可疑的旧版本浏览器
你看到这个页面可能是因为你试图访问我的博客 (Wandering Thoughts) 或其所属的 wiki 项目 CSpace。 不幸的是,你使用的浏览器版本过于陈旧,我的反爬虫措施认为它是可疑的(通常是 Chrome 的旧版本)。从 2025 年初开始,出现了大量使用各种旧浏览器 User-Agent 的爬虫(显然部分是为了收集数据进行 LLM 训练)。为了减轻 Wandering Thoughts 的负载,我正在尝试阻止它们,而你遇到了这种情况。
如果这是一个错误,并且你正在使用最新版本的浏览器,你可以通过我在大学的地址联系我(你应该可以从那里推断出电子邮件地址)。如果可能的话,请告诉我你正在使用的浏览器以及其他信息,最好包括完整的 User-Agent 字符串。
给使用 archive.* 的用户的特别提示
你可能正在通过 archive.today, archive.ph, archive.is 等网站查看此页面。 不幸的是,archive.* 抓取页面进行存档的方式与恶意行为者无法区分。 他们使用旧的 Chrome User-Agent 值,从广泛分布且未明确标识为他们的 IP 地址块进行抓取,并且他们的一些 IP 地址具有伪造的反向 DNS 条目,声称它们是 googlebot IP 地址(这通常只有非常糟糕的行为者才会做)。 我建议你使用 archive.org,它是一个行为更好的存档爬虫,可以抓取我的博客 (Wandering Thoughts)。
Chris Siebenmann, 2025-02-17