大模型（LLMs）权重：一段珍贵的历史

Big LLMs weights are a piece of history

Source | HN Comments

互联网信息正在快速流失，大量网页、个人博客、数字内容等永久消失。文章认为，尽管 The Internet Archive 等机构努力保存，但全面保存信息不切实际。作者提出，即使 LLMs 存在不精确性，其压缩信息的能力也比什么都没有好。文章强调，应确保公开发布的 LLMs 权重不丢失，并支持 The Internet Archive，同时建议将预训练数据集也纳入其中，以尽可能保留历史信息。

antirez

大模型（LLMs）权重：一段珍贵的历史

antirez 4 小时前. 18787 浏览.

据多方报道，网络正在丢失信息：每年都有部分旧网页消失，永远丢失。我们应该将 The Internet Archive 视为现代历史上最有价值的部分之一；然而，许多公司和实体让 The Internet Archive 的生存和积累（那些原本会丢失的内容）变得越来越困难。我知道 The Internet Archive 的总部位于一座旧教堂里：嗯，把它想象成一个神圣的地方再合适不过了。

想象一下，那些老程序员花费大量时间用 Z80 汇编语言在 Spectrum 计算机上进行黑客编程。关于互联网第一代的所有讨论。90 年代出现的亚文化。所有这些都在一点一点地消失。

还有那些个人博客呢？个人将部分意识倾注于互联网的生活片段。随着出版商倒闭，他们的网站关闭，科学论文和流程也永远丢失。早期的数字艺术、视频游戏、曾经在互联网上发布现在却已丢失的气候数据，以及许多新闻来源，也是如此。

这是一个已知的问题，我相信试图保存一切的明显方法将会失败，因为这不切实际：大量的努力换来的是零经济收益：现在的世界并不是一个付出大量金钱却得不到回报的好地方。这就是为什么我相信，即使是不精确、存在幻觉、有所缺失的 LLMs 压缩信息能力，也比什么都没有好。DeepSeek V3 已经是一种可用的、公开的、有损压缩的互联网视图，其他非常先进的模型也是如此。

这不会带回我们正在失去的一切，我们应该努力支持 The Internet Archive 和其他类似的机构和努力。但是，与此同时，我们应该专注于一个更简单的努力：确保公开发布的 LLMs 权重不会丢失，并确保 The Internet Archive 也成为预训练数据集的一部分。