Archival Storage:归档存储技术探讨

引言

我很荣幸能参加我相信是最后一期的研讨会。我之前的大部分演讲都集中在揭穿一些传统的观念,这次也不例外。我想告诉大家,不要再浪费时间和资源在另一种诱人但不切实际的想法上——即,存储归档数据的解决方案是准不朽的介质。和往常一样,你们不需要做笔记。我的演讲全文,包括幻灯片和来源链接,将在研讨会结束后不久发布在我的博客上。

备份

Backups

归档数据常常与备份数据混淆。每个人都应该备份他们的数据。在数字保存领域工作了近二十年后,以下是我如何备份我的四个重要系统:

每周,DVD-R、当前SSD和当前硬盘都会移到异地。我为什么要这样做?为了应对火灾或勒索软件等灾难,我希望能够恢复到尽可能接近灾难前的状态。就我而言,最坏的情况不会超过一周。请注意,这意味着备份数据的有用寿命仅仅是灾难发生前的最后一次备份到恢复之间的时间间隔。介质的寿命与备份数据无关;这就是为什么备份和归档是完全不同的问题。事实上,三个硬盘的盘片上以磁性颗粒编码的数据可以保存四分之一世纪,这很有趣,但与备份任务无关。

| 月份 | 介质 | 良好 | 不良 | 厂商 | | ------ | ------ | ---- | ---- | -------- | | 01/04 | CD-R | 5x | 0 | GQ | | 05/04 | CD-R | 5x | 0 | Memorex | | 02/06 | CD-R | 5x | 0 | GQ | | 11/06 | DVD-R | 5x | 0 | GQ | | 12/06 | DVD-R | 1x | 0 | GQ | | 01/07 | DVD-R | 4x | 0 | GQ | | 04/07 | DVD-R | 3x | 0 | GQ | | 05/07 | DVD-R | 2x | 0 | GQ | | 07/11 | DVD-R | 4x | 0 | Verbatim | | 08/11 | DVD-R | 1x | 0 | Verbatim | | 05/12 | DVD+R | 2x | 0 | Verbatim | | 06/12 | DVD+R | 3x | 0 | Verbatim | | 04/13 | DVD+R | 2x | 0 | Optimum | | 05/13 | DVD+R | 3x | 0 | Optimum |

我保存了数百对每周DVD-R,但只有在我每年更新光盘介质耐久性系列帖子时才会访问这些光盘。有趣的是:

在没有任何特殊存储预防措施、通用低成本介质和消费级驱动器的情况下,我从超过20年的CD-R和近18年的DVD-R中获得了良好的数据。

但是DVD-R介质的寿命并不是我将备份写入其中的原因。我感兴趣的属性是DVD-R是一次写入的;备份数据可能会被销毁,但无法修改。请注意,18年历史的DVD-R中的良好数据意味着消费者拥有一种经济有效的归档技术。但是光盘介质和驱动器的市场正在消亡,被流媒体所取代,这表明消费者并不真正关心归档他们的数据。Cathy Marshall在2008年的演讲 Its Like A Fire, You Just Have To Move On 生动地描述了这种态度。她的副标题是“重新思考个人数字归档”。

归档数据

对归档数据有什么有用的定义?它是指无法再在易于访问的存储上维持其价值的数据。因此,归档存储系统的基本设计目标是通过容忍增加的访问延迟来降低成本。数据被归档,即被移动到归档存储系统,以节省资金。归档是一个经济问题,而不是技术问题。

Clock of the Long Now

归档的数据应该保存多久?Long Now Foundation 正在建造 Clock of the Long Now,旨在保持10,000年的时间。他们希望附带一个10,000年的档案。这至少比我在这里谈论的时间长两个数量级。我们距离第一台存储程序计算机只有75年多一点,因此设计一个世纪的数字档案是一个非常雄心勃勃的目标。

归档介质

DailyMail

主流媒体偶尔会发布这样的公告,就像2013年 Daily Mail 的这篇报道。请注意,它从“26秒的摘录”推断到“有史以来创作的每部电影和电视节目都可以在一个茶杯中下载”。

AndToEndDNA

六年后的这张照片是据我所知唯一展示过的可写入读取的DNA存储驱动器。它来自Microsoft/University of Washington团队,该团队在DNA存储方面进行了大量研究。他们在2019年发表的 Demonstration of End-to-End Automation of DNA Data Storage 中展示了它。它花费了大约1万美元,耗时21小时来写入然后读取5个字节。

技术媒体同样有罪。关于实验室中某些发展的经典文章以著名的IDC图表开头,该图表预测了未来将生成的数据量。它接着描述了一些研究团队通过将比如1GB的数据写入他们最喜欢的介质中所取得的惊人密度,以及这种密度如何将世界上所有的数据永远存储在一个茶杯中。这传达了五个错误的印象。

市场规模

首先,研究人员有可能将其工艺扩展到IDC预测需求的有意义的一部分,甚至扩展到预测需求中适合归档的微小部分。没有这种可能性。归档介质的市场比常规介质的市场得多。在2018年的 Archival Media: Not a Good Business 中,我写道:

DNA-storage-hierarchy

仅用于归档的介质,如 钢带, 二氧化硅DVD, 5D石英DVD, 以及现在的 DNA 面临着一些基本的商业模式问题,因为它们仅在存储层次结构的最底部起作用。通常的存储层次结构图,就像Microsoft/UW团队研究DNA存储的这张图一样,看起来好像市场规模向下增加。但事实远非如此。

BitShipments

IBM的Georg Lauhoff和Gary M Decad的幻灯片 显示,以美元计算,市场规模向下递减。LTO磁带以美元计算不到介质市场的1%,以容量计算不到5%。归档介质是存储市场中非常小的一部分。值得注意的是,在2023年,最新的仅用于归档的介质Optical Archival (OD-3)因市场规模不够大而被取消。它是一个1TB的光盘,是蓝光(Blu-Ray)的升级版。

时间尺度

第二,研究人员最喜欢的介质可以在IDC预测的时间范围内进入市场。由于存储介质的可靠性和性能要求非常具有挑战性,因此存储市场中的时间尺度比行业营销人员喜欢暗示的要长得多。

DaveAnderson

以希捷(Seagate)的下一代硬盘技术HAMR的开发为例,研究始于二十六年前。九年后,他们在2008年发布了这张图,显示HAMR在2009年进入市场。十七年后,它才开始运送给超大规模企业。对二氧化硅中数据的研究始于十五年前。对DNA介质的研究始于三十六年前。两者都没有在五年内进入市场。

客户

第三,即使研究人员最喜欢的介质确实进入了市场,它也将是消费者可以使用的产品。Kestutis Patiejunas在Facebook十多年前就发现了,因为围绕归档介质的系统而不是介质本身是主要的成本,因此使归档存储的经济效益发挥作用的唯一方法是在数据中心规模但在仓库空间中进行,并收获来自不需要数据中心电源、冷却、人员配备等的协同效应。

ArealDensityForecast

存储有一个类似于摩尔定律的定律,称为 Kryder's Law,它指出,随着时间的推移,存储介质上的比特密度呈指数增长。鉴于需要在数据中心规模上降低成本,Kryder's Law限制了即使是准不朽介质的使用寿命。正如我们在磁带机器人中看到的那样,数据通常会在其理论寿命之前迁移到更新、更密集的介质上,重要的是介质的经济寿命,而不是技术寿命。硬盘每五年更换一次,尽管盘片上的磁编码数据可以保存四分之一世纪。它们的工程设计寿命为五年,因为Kryder's Law意味着即使它们仍然可以完美工作,也会在五年后被更换。希捷实际上制造了具有25年寿命的硬盘,但发现没有人会为更长的寿命支付额外的费用。

Glacier

第四,是否有人关心甚至知道他们的归档数据存储在什么介质上。只有超大规模企业才关心。消费者认为他们的数据在云中是安全的。如果它已经安全了,为什么还要备份它,更不用说归档它了?如果有人真的关心归档,他们会使用像Glacier这样的服务,那时他们肯定不知道正在使用什么介质。

威胁

BitRot

第五,比特腐烂(bit rot)是唯一重要的威胁;有了准不朽的介质,你就不需要大量的副本来保证安全。没有介质是完美的。它们都有一个指定的不可恢复的比特错误率(Unrecoverable Bit Error Rate, UBER)。例如,典型的硬盘UBER为10-15。一个PB是8*10^15比特,因此,如果硬盘在其指定的性能范围内,则在读取一个PB时,您最多可以预期8个错误。指定的UBER是一个上限,通常您会看到远少于这个数字。LT09磁带的UBER为10-20,因此新磁带上的不可恢复错误非常不可能。但并非不可能,并且该比率会随着磁带磨损而急剧上升。

将介质归类为准不朽的属性并不是其可靠性从一开始就高于常规介质(尽管对于磁带来说可能是这样)。而是其可靠性衰减比常规介质慢。因此,归档系统需要使用纠删码来缓解UBER数据丢失和介质故障(如磁盘崩溃和磁带磨损)。需要纠删码的另一个原因是介质错误不是唯一需要缓解的错误。重要的是系统为最终用户提供的可靠性。研究表明,大多数最终用户错误来自实际介质之上的系统层。

档案可能包含个人身份信息或其他敏感数据。如果是这样,则必须加密介质上的数据。这是一把双刃剑,因为加密密钥成为单点故障;它的丢失或损坏会导致整个档案无法访问。因此,您需要大量的副本来保证密钥安全。但是,副本越多,密钥泄露的风险就越大。

诸如二氧化硅、DNA、石英DVD、钢带等介质解决了比特腐烂的问题,这只是长期数据所面临的威胁之一。显然,即使是经过纠删码的此类介质的单个副本仍然会受到包括火灾、洪水、地震、勒索软件和内部人员攻击在内的威胁。因此,即使是档案也需要维护多个副本。这大大增加了成本,使我们回到经济威胁。

归档存储系统

在Facebook,Patiejunas构建了机架规模的系统,每个系统可容纳10,000个100GB的光盘,每个机架可容纳1PB。可写入的蓝光(Blu-Ray)光盘每个大约80美分,因此填充机架的介质将花费大约8000美元。这显然远低于机器人技术和驱动器的成本。

IBM-TS4300

让我们用另一个例子来证明这一点。IBM TS4300 LTO磁带机器人起价为2万美元。两个20盒磁带盒来填充它需要花费大约4000美元,因此介质约占总系统资本支出的16%。该机器人的运营支出包括电力、冷却、空间、人员和IBM维护合同。磁带的运营支出基本上为零。介质在磁带上存储归档数据的总生命周期成本中仅占很小的一部分。对于归档存储系统的经济可行性而言,重要的是最大限度地降低总系统成本,而不是介质的成本。没有人会花费2.4万美元从IBM购买一个机架式磁带系统来为他们的家庭或小型企业存储720TB。只有在数据中心规模上,经济效益才有效。

对介质的关注是一种干扰,因为数字保存的根本问题是经济问题,而不是技术问题。没有人愿意为保存没有产生收益的数据付费,这几乎就是归档数据的定义。介质的每TB成本无关紧要,驱动经济威胁的是系统的资本和运营成本。以磁带为例。介质的资本成本很低,但更高的系统资本成本包括驱动器和机器人技术。然后是数据中心空间、电力、冷却和人员的运营成本。只有通过在数据中心规模上运行,从而将资本和运营成本分摊到大量数据上,才能使每TB的系统成本具有竞争力。正如Patiejunas发现的Microsoft理解的,在数据中心规模上运行意味着确定系统成本的参数之一是写入带宽。Facebook的每个机架几乎连续并行地写入12张光盘。将整个磁盘写入填充机架的时间将超过800倍。以8倍的写入速度,填充一张磁盘需要22.5分钟,因此填充机架大约需要18,750分钟,即大约两周。尚不清楚Facebook同时需要多少个机架来跟上用户生成内容的流量,但这可能足以填充一个合理大小的仓库。同样,填充基本型号TS4300大约需要8.5天。

Project Silica

一年前,我写了关于Microsoft的Project Silica的文章,在 Microsoft's Archival Storage Research 中。它使用飞秒激光将数据写入二氧化硅盘片中。与Facebook一样,Silica原型系统也是数据中心规模的

Silica库_是由盘片交付系统互连的一系列连续的写入、读取和存储机架。沿着所有机架,都有跨越整个库的平行水平导轨。我们将库的一侧(跨越所有机架)称为_面板。一组称为_自由漫游_机器人的_穿梭机_用于在位置之间移动盘片。......读取机架包含多个读取驱动器。每个读取驱动器都是独立的,并具有可插入和取出盘片的插槽。面板上活动的穿梭机数量限制为面板中读取驱动器数量的两倍。写入驱动器是全机架大小的,并同时写入多个盘片。

他们的性能评估侧重于在15小时内响应读取请求的能力。他们的成本评估与Facebook一样,侧重于使用仓库型空间来容纳设备所节省的资金,尽管尚不清楚他们是否实际这样做。他们的其余成本评估有些含糊不清,对于一个尚未投入生产的系统来说,这是很自然的:

Silica读取驱动器使用偏振显微镜,这是一种广泛用于许多应用且低成本的商品化技术。目前,Silica中的系统成本主要由写入驱动器主导,因为它们使用飞秒激光,目前价格昂贵且用于利基应用。......随着Silica技术的普及,它将推动对飞秒激光的需求,从而使该技术商品化。

我对“商品化该技术”持怀疑态度。归档系统是IT市场中的一个利基市场,公司不愿在该市场花钱。实际上,不会有大量的Silica写入头。像Silica这样的系统的唯一客户是大型云提供商,他们不愿意将其档案提交给竞争对手拥有的技术。除非出现飞秒激光的大众市场应用,否则降低成本的空间有限。但是,我越考虑这项仍在实验室中的技术,我就越认为它可能在所有竞争的归档存储技术中对市场产生最大的影响。不是很好,但比其竞争对手好:

ThorLabsLaser

该系统昂贵的部分是写入头。它是一个使用飞秒激光的完整机架,起价约为5万美元。最终系统的经济性将取决于在降低激光成本方面取得的进展。

检索

Svalbard

斯瓦尔巴群岛是我在1969年夏天进行地质调查的地方。归档策略最重要的部分是了解如何将内容从档案中取出。放入东西并保证其安全很重要且相对容易,但是如果您无法在需要时将东西取出,那有什么意义呢?

在某些情况下,只需要访问档案的一小部分。在Facebook,Patiejunas预计访问的主要原因是回应传票。在其他情况下,例如迁移到新的归档系统,则需要批量数据检索。但是,如果需要访问的原因是灾难恢复,那么重要的是要了解灾难发生后可能有哪些可用资源。通过将世界上大部分开源软件编码为胶片上的QR码并将胶片罐存储在斯瓦尔巴群岛的废弃煤矿中,Microsoft获得了有价值的公关,因此它可以“在世界末日中幸存下来”。在 Seeds Or Code? 中,我花了很多时间想象世界末日的幸存者将如何访问档案。

TromsoLongyear

长话短说,即使在轻微的世界末日之后,他们也无法做到这一点。让我们指出,世界末日后的第一步是到达斯瓦尔巴群岛。他们将无法飞往LYR。从特罗姆瑟(Tromsø)到斯瓦尔巴群岛的直线距离为591英里,穿越非常汹涌的海面。这需要几天的时间,而且到达特罗姆瑟也不容易。

归档存储服务

由于技术具有很强的规模经济效应,因此大多数形式的IT的经济效益都对超大规模企业有利。对于归档数据而言,这些力量尤其强大,这既是因为它几乎是纯粹的成本而没有收入,又是因为正如我之前讨论的那样,归档存储的经济效益仅在数据中心规模上才有效。很少有机构可以避免使用云归档存储。我在2019年的 Cloud For Preservation 中分析了这些经济力量的运作方式:

云技术对组织(尤其是通过政府年度预算流程资助的公共机构)的吸引力在于,它们将成本从资本支出转移到运营支出。很容易相信这会增加财务灵活性。关于提取和传播,这可能是正确的。可以将某些项目的提取延迟到下一个预算周期,或者暂时降低访问速率限制。但是关于保存,事实并非如此。不太可能在预算紧缩的情况下取消该机构的部分馆藏,而仅在资金充足时才重新访问。即使内容仍然可以重新提取,提取成本也占保存数字内容总生命周期成本的很大一部分。

云服务通常对提取、存储和检索收取不同的费用。该服务在设计其定价结构