数据中心里90%都是 Crap Data(垃圾数据)
Gerry McGovern
数据中心里90%都是 Crap Data(垃圾数据)
我们需要谈谈数据的问题,特别是 Crap Data(垃圾数据)的问题。我们正在破坏我们的环境,仅仅是为了创建和存储数万亿的模糊图像、半生不熟的视频、盗版的 AI“歌曲”、盗版的 AI 动画、视频和图像,以及包含超大附件的电子邮件,永远不会再被观看的演示文稿,永远不会再被阅读的报告,来自已取消项目的文档和图纸,草稿的草稿的草稿,过时、不准确和完全错误的信息,以及数 GB 又数 GB 的写作糟糕、冗长的内容。
我们正在破坏我们的环境,仅仅是为了存储我们永远不想再看的东西的副本的副本的副本。我们正在破坏我们的环境,每年拍摄 1.9 万亿张照片。2020 年代一年拍摄的照片比整个 20 世纪拍摄的照片还要多。相当于每个活着的孩子、女人和男人每年拍摄超过 200 张照片。每年有 12 万亿张照片,而且还在增长,它们存储在 Cloud(云)中,其中绝大多数永远不会再被查看。这令人难以置信,而这正是 Big Tech(大型科技公司)所希望的。
我花了近 30 年的时间与全球约 40 个国家/地区的数百家最大的组织合作,试图帮助他们更好地管理他们的内容和数据。以下是我学到的东西。商业或政府数据中,90% 以上是 crap(垃圾),绝对的 crap(垃圾)。 Period.(句号)。它们根本不应该被创建。当然更不应该被存储。数字化的兴起见证了数据垃圾生产的爆炸式增长。内容管理系统就像给员工配备了柴油驱动的挖掘机,而以前他们只有数据铲子。我记得大约在 2010 年,与一位 Microsoft(微软)经理交谈,他估计当时在 Microsoft.com 上大约有 1400 万个页面,其中 400 万个页面从未被访问过。四百万,我想。这基本上相当于整个爱尔兰共和国的人口数量的页面,却从未有人访问过。它们为什么要被创建?所有的时间、精力和能源以及浪费都投入到了这些从未有人阅读过的页面上。我们正在破坏我们的环境来创建和存储 crap(垃圾)。而且没有人关心。
无论我走到哪里,都是同样的故事。到处都是数据垃圾。分布式发布允许基本上任何人都在内网上发布他们想要的任何东西。而且没有人维护任何东西。当 Kyndryl(凯睿德),世界上最大的 IT 基础设施服务提供商,从其母公司 IBM(国际商业机器公司)分拆出来时,他们发现他们的数据分散在 100 多个不同的数据仓库中。多个团队拥有相同数据的多个副本。清理后,他们删除了 90% 的数据。有 1000 万个类似的故事。
Scottish Enterprise(苏格兰企业局)的网站上有 753 个页面,其中 47 个页面占了 80% 的访问量。我工作过的一家大型组织,其网站每年有 1 亿次访问,其中 5% 的页面占了 80% 的访问量。它的 10 万个页面在 10 年内没有被审查过。“被处理的大部分数据不到 24 小时,”计算机工程师 Jordan Tigani 解释说。“数据存在一周后,被查询的可能性可能比最近一天的数据低 20 倍。一个月后,数据基本上就只是放在那里。” Southampton University(南安普顿大学)的公共网站发现,0.2% 的页面占了 90% 的访问量。只有 4% 的页面被访问过。因此,大约 400 万页中的 96% 没有被访问过。我认识的一个组织拥有 1500 TB 的数据,其中不到 2% 的数据在首次存储后被访问过。还有 2000 万个类似的故事。
大多数组织不知道他们拥有什么内容。更糟糕的是,大多数组织甚至不知道他们的数据存储在哪里。更更糟糕的是,大多数组织甚至不知道他们有多少台计算机。在特定的组织中,至少有 50% 的数据位于某个服务器上,而且管理层中的任何人都不知道它是否存在;他们也不关心。普通组织拥有数百个未经授权的第三方应用程序订阅,这些订阅由某个经理的信用卡支付,存储着从项目聊天到报告草稿再到产品原型的所有内容。
Cloud(云)使数据垃圾问题变得更加严重。当存储数据的成本低于弄清楚如何处理垃圾的成本时,Cloud(云)就会出现。一项研究发现,英国工程和建筑行业公司存储的数据从 2018 年的平均 3 TB 增加到 2023 年的 26 TB。这是一个 50% 的复合年增长率!这种数据垃圾的爆炸式增长已经发生——并且正在发生——在世界各地。而且管理层中的任何人都不会关心,因为存储数据太“便宜”了。而这正是 AI(人工智能)正在接受训练的数据。我们想知道为什么 AI(人工智能)经常出错?Crap data in(垃圾数据输入),Crap data out(垃圾数据输出)。而且没有人关心。特别是在高级管理层,没有人关心。高级管理层充斥着 Big Tech(大型科技公司)的粉丝,他们高呼着最新的技术奇迹,这些奇迹将神奇地改变并提升他们的职业生涯。不得不与高级经理打交道一直是我工作中最令人不快的部分,因为在技术方面,这些经理存在于一个完全不同层次的愚蠢、虚荣和自恋地追求自己的自私议程。