在 Unix 系统上安装个人版本程序的那些事
由于您使用的浏览器版本过旧,或使用了类似 archive.* 的网站,您可能无法访问作者的博客和 wiki。作者的反爬虫措施会阻止使用旧浏览器 User-Agent 的访问,以减轻服务器负载,特别是针对用于 LLM 训练的爬虫。如果误判,请联系作者提供浏览器信息。建议使用 archive.org 替代 archive.* 进行页面存档。
您正在使用一个可疑的旧版本浏览器
您可能看到此页面,是因为您尝试访问我的博客 (Wandering Thoughts)或其所属的 wiki CSpace的某些部分。不幸的是,您使用的浏览器版本已被我的反爬虫措施视为可疑,通常是因为它过于陈旧(这种情况最常见于 Chrome 的某些版本)。截至 2025 年初,大量爬虫(显然部分是为了收集用于 LLM 训练的数据)泛滥,它们使用各种旧的浏览器 User-Agent,尤其是 Chrome User-Agent。为了减轻Wandering Thoughts的负载,我正在尝试(并努力)阻止所有这些爬虫,而您正好撞上了。 如果这是一个错误,并且您使用的是您选择的浏览器的最新版本,您可以通过我在大学的地址与我联系(您应该可以从那里推断出电子邮件地址)。如果可以,请告知我您使用的浏览器以及其他信息,最好是提供其准确的 User-Agent 字符串。
给使用 archive.* 的用户的特别说明
您可能通过 archive.today, archive.ph, archive.is 等网站看到此消息。不幸的是,archive.* 爬取页面进行存档的方式与恶意行为者无法区分。它们使用旧的 Chrome User-Agent 值,从广泛分布且未明确标识为属于它们的 IP 地址块进行爬取,并且它们的一些 IP 地址具有伪造的反向 DNS 条目,声称它们是 googlebot IP 地址(通常只有非常糟糕的行为者才会这样做)。我建议您使用 archive.org,它是一个行为更好的存档爬虫,可以爬取我的博客 (Wandering Thoughts)。 Chris Siebenmann, 2025-02-17