数字档案员如何从记忆黑洞中拯救公共信息

通过巧妙地使用 APIs,哈佛法学院的 Library Innovation Lab 创建了一个 Data.gov 的档案,其中包含 311,000 个公共数据集。

Harry Goldstein

2025年4月1日

3 分钟阅读

Brewster Kahle 创立非营利组织 Internet Archive 的 Wayback Machine 后的三十年里,它已经扩展到包括政府网站和数据集,其中许多对于工程和科学界至关重要。像 National Science FoundationDepartment of EnergyNASA 这样的美国政府机构,是研究数据、技术规范和标准文档的重要来源,几乎涵盖了所有 IEEE Spectrum 受众所从事的领域——AI 与计算机科学、生物医学设备、电力与能源半导体、电信……等等。

访问这些政府数据直接影响实验的可重复性、模型的验证以及学术记录的完整性。

那么,如果整个数据集消失了会发生什么? 除此之外,它可能会使多年来建立在该基础上的研究失效。

直到最近,大规模删除数据的情况还很少见。 在 United States,总统换届通常涉及对政府网站进行一些更改,以反映新的政策重点。 在 9/11 事件之后,乔治·W·布什政府出于安全原因,从政府网站上删除了 “数百万字节”的信息,以及数百份 Department of Defense 文件和“数万份” Federal Energy Regulation Commission 文件。

Obama 和拜登政府也对政府网站进行了修改,但没有大规模删除网页或数据集。 事实上,奥巴马在 2009 年通过启动 Data.gov,扩大了公众访问政府数据的权限,其明确的任务之一是“释放政府开放数据的力量,为公众和决策者的决策提供信息”。

在唐纳德·J·特朗普总统的第一个任期内, Environmental Data & Governance Initiative 的研究人员 发现,一些政府网站变得无法访问,并且“气候变化”一词从几个政府网页上被删除。

访问政府数据直接影响实验的可重复性、模型的验证以及学术记录的完整性。

第二个任期有所不同。 今年二月,在特朗普宣誓就职第二个任期几周后,__The New York Times__ 报道,他的政府删除了超过 8,000 个网页和 数据库。 许多这些页面后来又重新出现,但一些恢复的页面和文件发生了变化,包括删除了 诸如“气候变化”(再次)和“清洁能源”之类的术语, Grist 报道。 这些举动面临多项法庭挑战; 例如,2 月 11 日,一位联邦法官下令恢复公众对属于 Centers for Disease Control and Prevention 和 Food and Drug Administration 的网页和数据集的访问。

在我们四月份的 杂志 中, Spectrum 的助理编辑 Gwendolyn Rak 报道 了为保持公众对信息的访问所做的努力。 除了 Internet Archive 正在进行的工作之外,她还介绍了 Library Innovation Lab at Harvard Law School 的档案管理员如何积累了 16 TB 的 Data.gov 档案的副本, 其中包括超过 311,000 个公共数据集。 该复制的档案每天都会更新,通过自动查询应用程序 programming interfaces (APIs) 来收集新数据。

档案管理员是记忆的守护者。 我们依靠他们来帮助我们与历史保持联系、维护我们的知识库并提供背景信息,从而使我们能够了解我们是如何走到今天的地步,并照亮前进的道路。 在科学、工程和医学领域,今天的创新建立在昨天的发现之上,这些数字保护者确保人类知识的循环不会中断。

本文以“Lots of Copies Keep Stuff Safe.”为题发表于 2025 年 4 月的印刷版。

编者注:本文已修改为与印刷版一致。