我对 Go 错误处理变化的悲观看法(但它们终将发生)
由于作者的博客受到旧浏览器和恶意爬虫的困扰,文章阐述了其采取的应对措施。作者的博客(包括[Wandering Thoughts](https://utcc.utoronto.ca/~cks/space/blog/programming/ )和[CSpace](https://utcc.utoronto.ca/~cks/space/blog/programming/ ))会阻止使用旧浏览器版本的用户,特别是 Chrome。文章解释了这一策略的原因,并提供了联系方式,供用户报告误判。同时,文章特别指出,archive.* 网站的爬取行为与恶意行为难以区分,建议使用 archive.org。
您正在使用一个可疑的旧浏览器
您可能正在阅读此页面,因为您试图访问我的博客 (Wandering Thoughts)或 CSpace 的某个部分,它是 wiki 的一部分。 不幸的是,您使用的浏览器版本被我的反爬虫措施认为是可疑的,通常是因为它太旧了(最常见的情况是适用于 Chrome 的版本)。 不幸的是,截至 2025 年初,出现了一大批高流量爬虫(显然部分原因是收集用于 LLM 训练的数据),它们使用各种旧的浏览器 User-Agent,尤其是 Chrome User-Agent。 为了减少Wandering Thoughts 上的负载,我正在尝试(试图)阻止所有这些爬虫,而您遇到了这个问题。
如果这是一个错误,并且您使用的是您选择的浏览器的最新版本,您可以通过我在大学的当前地点与我联系(您应该能够从中找到电子邮件地址)。 如果可能,请告诉我您正在使用什么浏览器等等,最好提供其确切的 User-Agent 字符串。
使用 archive.* 用户的特别说明
您可能正在通过 archive.today, archive.ph, archive.is 等网站看到此信息。 不幸的是,archive.* 爬取页面以进行归档的方式与恶意行为者无法区分。 它们使用旧的 Chrome User-Agent 值,从广泛分布且未明确标识为他们的 IP 地址块进行爬取,并且它们的一些 IP 地址具有伪造的反向 DNS 条目,声称它们是 googlebot IP 地址(这通常只由非常糟糕的行为者完成)。 我建议您使用 archive.org,它是一个行为更好的归档爬虫,可以爬取我的博客 (Wandering Thoughts)。
Chris Siebenmann, 2025-02-17