[中文正文内容]

2025年4月15日 by Drew DeVault

你们无法获取我们用户的data

正如您可能已经注意到的,SourceHut已部署 Anubis 到部分服务中,以保护我们自己免受激进的 LLM 爬虫侵害。1 关于 LLM 问题的讨论已经很多了,我们这里无需赘述。 但是,我想借此机会阐明 SourceHut 对这种抓取行为的总体看法,以及我们认为用户委托给我们的data应该如何使用。

在此之前,我们已经在一些地方,特别是在我们的服务条款和 robots.txt 文件中,对此做出了一些低调的保证。 引用前者:

您可以使用自动化工具从服务中获取公共信息,用于存档或开放访问研究。 您不得将此data用于招聘、招揽或盈利。

自2018年最初编写服务条款以来,这一直是服务条款的一部分。事后看来,我可能会提出不同的措辞,以更好地反映我们的意图——但我们尽量不经常更新服务条款,因为我们必须向所有用户发送电子邮件,让他们知道我们已经这样做了。我有一个待处理的编辑提案,将在下一批更改中包含在条款中,内容如下:

您可以使用自动化工具批量访问公共SourceHut data(即爬虫、机器人、蜘蛛等),前提是:

  1. 您的软件遵守 robots.txt 中规定的规则
  2. 您的软件使用 User-Agent 标头,清楚地标识您的软件及其运营商,包括您的联系方式
  3. 您的软件请求data的速度不会对其他用户的服务性能产生负面影响

您_只能_出于以下一个或多个目的收集此data:

  • 搜索引擎索引
  • 开放访问研究
  • 存档

未经 SourceHut 工作人员明确许可,您不得使用自动化工具收集 SourceHut data 用于招揽、盈利、训练机器学习模型或此处未列出的任何其他目的。

这段文本或类似内容将包含在我们下次服务条款更新中,该更新可能会在我们完成设置新的欧洲账单系统前后发布。

细心的观察者也可以在我们的 robots.txt 文件中详细了解我们对抓取工具的看法。它以如下内容开头:

# 我们的政策
#
# 允许:
# - 搜索引擎索引器
# - 存档服务(例如 IA)
#
# 禁止:
# - 营销或 SEO 爬虫
# - 用于向机器学习模型提供数据的任何内容
# - 默认情况下过于激进的机器人。 这是主观的,如果您惹恼了我们的系统管理员,您将被阻止。
#
# 如果您不尊重 robots.txt 或故意规避它,我们将阻止您的子网,并在您母亲的前廊上留下一袋燃烧的狗屎。

从最后一句话的语气可以推断出,对于我们的系统管理员来说,试图执行 robots.txt 是一项令人沮丧且吃力不讨好的任务。

除了这些资源之外,今天我还想详细阐述一下我们对抓取工具的看法。 长期以来,抓取工具一直是系统管理员的眼中钉,但这一点尤其重要,因为 LLM 抓取工具正在抢占整个互联网来为昂贵、低效的机器学习模型提供数据——忽略了数据本身的版权 (或者copyleft, 可以这么说)。 由于鲁莽的抓取工具造成的严重成本、普遍的性能问题和中断,近来一直是系统管理员社区关注的问题,并且已成为在线讨论的主题。

除了对 LLM 运营商表示难以置信的反应之外,以及来自社区的大部分对系统管理员的支持和同情之外,少数人认为这个问题不如我们认为的那么重要。 他们的许多论点都归结为指责受害者——处理如此大的流量并不难,我们应该进行优化以更好地处理它,我们需要更多的缓存或提高我们的性能,或者我们应该付钱给像 CloudFlare 这样的敲诈勒索者来解决这个问题。 有人建议系统管理员应该联系 LLM 公司,为他们提供更有效的方式来访问我们的数据,以解决该问题。

当然,并非所有软件都一定能够像 Joe Naysayer 的静态网站那样具有资源效率。 此外,LLM 公司对为他们抓取的每个数据源构建软件集成这种更昂贵的途径并不特别感兴趣,因为他们可以采取让我们所有人为开销付费的廉价途径。 我们这些系统管理员也不必花费我们可支配的有限时间和资源(通常比这些 LLM 公司可用的资源要少得多)与恐怖分子谈判并为 他们 构建定制解决方案。

比任何这些担忧更重要的是解决基本假设:这些公司有权访问此data。 这种假设有不同的根源,既有像错位的自由主义理想这样良性的,也有像理性主义邪教那样疯狂的信念,即 AGI 即将到来,每个人都应该尽其所能地参与其中,以造福无数未出生的未来人类。

我们认为,这些公司无权访问我们提供的数据,任何人都无权访问。 SourceHut 上公开数据的目标受众是访问数据的开源软件用户和贡献者,目的是为了这些目的。 事实上,允许对公共 SourceHut 数据进行一些有利可图的使用,正如 开源定义 所赋予的权利一样,但我们不希望批量提供我们的数据给任何企业、大型企业或初创企业,他们希望将其输入 LLM 或进行任何其他与我们的使命没有直接关系的事情,我们的使命是改进开源软件。

我们也不会与这些公司达成特殊安排来共享此数据,即使他们提出付费购买的可能性很小。 我们的资金来自付费订阅,而不是出售用户的数据。 这不是我们可以出售的——GitHub 及其自身的 LLM 产品最好更仔细地考虑这一点。 我们被委托的数据属于我们的用户,并且致力于公共领域,我们认真对待我们作为此数据管理员的角色。 我们的职责是确保它用于服务于我们用户的最佳利益。 我们始终把他们放在首位

  1. 我们也在研究 go-away,这是一个新的选项,可能有效,并且对用户的影响更小(特别是通过不一定需要 JavaScript)。 ↩︎