大模型(LLMs)权重:一段珍贵的历史
互联网信息正在快速流失,大量网页、个人博客、数字内容等永久消失。文章认为,尽管 The Internet Archive 等机构努力保存,但全面保存信息不切实际。作者提出,即使 LLMs 存在不精确性,其压缩信息的能力也比什么都没有好。文章强调,应确保公开发布的 LLMs 权重不丢失,并支持 The Internet Archive,同时建议将预训练数据集也纳入其中,以尽可能保留历史信息。
大模型(LLMs)权重:一段珍贵的历史
antirez 4 小时前. 18787 浏览.
据多方报道,网络正在丢失信息:每年都有部分旧网页消失,永远丢失。我们应该将 The Internet Archive 视为现代历史上最有价值的部分之一;然而,许多公司和实体让 The Internet Archive 的生存和积累(那些原本会丢失的内容)变得越来越困难。我知道 The Internet Archive 的总部位于一座旧教堂里:嗯,把它想象成一个神圣的地方再合适不过了。
想象一下,那些老程序员花费大量时间用 Z80 汇编语言在 Spectrum 计算机上进行黑客编程。关于互联网第一代的所有讨论。90 年代出现的亚文化。所有这些都在一点一点地消失。
还有那些个人博客呢?个人将部分意识倾注于互联网的生活片段。随着出版商倒闭,他们的网站关闭,科学论文和流程也永远丢失。早期的数字艺术、视频游戏、曾经在互联网上发布现在却已丢失的气候数据,以及许多新闻来源,也是如此。
这是一个已知的问题,我相信试图保存一切的明显方法将会失败,因为这不切实际:大量的努力换来的是零经济收益:现在的世界并不是一个付出大量金钱却得不到回报的好地方。这就是为什么我相信,即使是不精确、存在幻觉、有所缺失的 LLMs 压缩信息能力,也比什么都没有好。DeepSeek V3 已经是一种可用的、公开的、有损压缩的互联网视图,其他非常先进的模型也是如此。
这不会带回我们正在失去的一切,我们应该努力支持 The Internet Archive 和其他类似的机构和努力。但是,与此同时,我们应该专注于一个更简单的努力:确保公开发布的 LLMs 权重不会丢失,并确保 The Internet Archive 也成为预训练数据集的一部分。