AI寒冬将至？(2024)

Is Winter Coming? (2024)

Source | HN Comments

文章探讨了对人工智能（AI）的过度期望及其可能面临的“寒冬”。作者指出，早期AI因无法满足承诺而导致资金枯竭。当前AI，如图像识别和LLM，虽有进步，但仍依赖“提示工程”，且常出现幻觉，无法达到人类专家水平。作者质疑AI在自动驾驶、客户服务等领域的可靠性和盈利能力，认为炒作掩盖了技术局限。文章还提到了知识产权、责任等问题，并预测AI可能面临资金减少和公众失望，预示着一个“寒冬”的到来。

{ datagubbe }

datagubbe.se » AI寒冬将至？

AI寒冬将至？

关于人工智能和过高期望的一些思考。 2024年春 在20世纪60年代，AI研究人员试图——但失败了——实现俄语到英语的机器翻译。过于自信的研究人员、懒惰的记者和过于乐观的科技乌托邦主义者都构建了无法满足的期望。最终，缺乏成果导致了之前慷慨的资金支持停止。该项目被中止，人们对AI的兴趣也减退了。这是第一个“AI寒冬”。

最近，我的一位同事想展示一些他在乡村道路上拍摄的大量花生洒落的照片。一辆载有大量花生的卡车显然遇到了故障，倾倒了货物，并将其留在那里任人拾取。他尝试在他的智能手机照片库中搜索“peanuts”，但没有出现任何图像。我建议他尝试搜索“pebbles”，结果，我们立即看到了花生海洋的照片。

智能手机上的图像识别功能是现在属于“AI”范畴的东西之一：一种在大量照片上训练以分类和识别它们所描绘内容的软件。问题是，即使在非常大的照片选择中，花生海洋也非常罕见。要找到一张花生海洋的照片，人类必须介入并做一些AI软件迄今为止无法做到的事情：了解软件是如何训练的，并创造性地使用这些知识——例如提出花生和鹅卵石之间的视觉相似性。这种做法被称为_prompt engineering_（提示工程）。

Prompt engineering（提示工程）不仅是一个相当愚蠢的名字，而且在AI世界中也是一种自相矛盾的做法。最新AI炒作的整个卖点是让计算机的行为更像人类。这是最终用户的期望，也是所有主要参与者用来推动当前炒作的原因。用普通的口语英语输入（或说出！）一个问题，然后得到一个以类似风格阅读（或说出！）的答案。要求它找到花朵的图片，你就会得到花朵的图片。

另一方面，对prompt engineering（提示工程）的需求使我们回到了计算机使用的起点：人类用户必须像计算机一样思考的令人讨厌的旧难题，而不是反过来。

柠檬形状的肥皂。 是柠檬吗？是柠檬形状的肥皂吗？是装在网里的柠檬形状的肥皂吗？家用机器人不知道。因此，它尖叫。 并不是说从广义上讲，AI已经没有用处。自20世纪60年代以来，发生了很大变化，尤其是在硬件方面。更快更便宜的机器可以运行更复杂的软件并处理更大的数据集。我们现在正处于机器翻译普遍存在的阶段。它可能并不完美，但通常足够好，而且——就像智能手机图像搜索一样——通常胜过一无所有。

如果应用得当，图像识别也不一定值得嘲笑。如果它可以帮助人类医生以更高的速度和准确性检测某些疾病，那么它已经是一个很棒的工具。开发和运行它的成本也很容易被挽救的生命所抵消。问题在于，公众的看法往往会将这种极其狭窄的用例视为计算机下棋。

一个现代的chess engine可以轻松击败世界上排名最高的棋手。它可以用于练习，甚至可以开发新的棋风，但在国际象棋比赛中使用它是被认为是作弊的。这种使用被认为是作弊的原因与它也被认为无趣的原因相同：人们想观看人类的壮举。如今，对大多数人来说，计算机下棋是一种极其计算机化的活动。每个人都明白，国际象棋是一个封闭的——尽管很复杂——的系统。每个人也都意识到，现代计算机可以做出比任何人类都更深入、更快、更好的预测。它既不有趣、不令人印象深刻，也不令人愉快——至少不像12岁的人类国际象棋神童那样。

一台可以检测某种类型疾病的计算机当然比一个非常有能力的chess engine更有趣和更有益，并且将被绝大多数人接受为一件好事。这不是作弊，这是在帮助。然而，这并没有什么可大肆宣传的：就像chess engine或半体面的机器翻译一样，这仅仅是一台计算机终于在做我们一直被告知他们应该能够做的众多事情之一。基本上，一招鲜，基本上只是另一款医疗软件，更像是Word或Excel，而不是一台思考的机器。

毕竟，对于我们大多数人来说，“artificial intelligence”（人工智能）不仅仅意味着“思考的机器”。这也是该领域的大公司目前正在销售的东西：不仅可以像人类一样交流，而且表面上也可以像人类一样_行动_的软件——除了更聪明、知识更渊博。因此，普遍的期望是AI至少意味着在它声称精通的任何给定领域的任何任务中，_始终如一地可靠地优于人类专家_的软件。如果做不到这一点，它至少应该意识到自己的局限性，让用户知道某个问题无法回答或某个任务无法令人满意地执行。

问题是，到目前为止，我们只完成了类似人类的沟通部分，即使这样有时仍然有点靠不住——理想情况下，它不应该需要好奇的prompt engineering（提示工程）才能产生高质量的结果。另一半仍然充满了无能，最大的问题是所谓的幻觉。幻觉是指Large Language Model（大型语言模型）——目前是AI系统流行的定义——自信地将虚假或完全捏造的内容呈现为事实。LLM这样做是因为他们无法思考或知道事情，因此无法区分真假，因此无法阻止自己脱口说出愚蠢或彻头彻尾的危险答案。这种行为是否可以完全缓解充其量是值得怀疑的：LLM的核心是将单词以统计上高度可能的方式串联在一起。这不仅仅是关于“垃圾进，垃圾出”——由于用于训练它们的数据集规模庞大，这仍然是一个问题——而且还关于完全消除异常的风险，确保模型可以以某种方式确定它是否生成了一个异常。

OpenAI 的 ChatGPT 是目前最著名的 LLM 产品之一，该公司本身也得到了包括 Microsoft 在内的一些非常富有的投资者的支持。他们也非常擅长制造炒作。尽管他们经历了不少争议，但他们仍然受到媒体的友好对待，媒体忠实地帮助他们在新技术版本发布时助长了这种炒作。

这种炒作最初使很多人对 LLM 非常热情——包括我自己。这种热情中的一部分可以归因于对相关技术的误解——但围绕这些产品的学术交流和企业营销都在很大程度上助长了误解，并以不切实际的方式支撑了期望。

大多数这项技术背后的巨头公司，以及一小群被称为科技兄弟的人，非常擅长维护形象。小的改进会产生巨大的兴奋，而彻底的失败会被迅速遗忘。OpenAI 最近展示了他们最新的 ChatGPT，版本 4o，通过 iPhone 以非常人性化的声音与用户交谈。当然，该模型是否仍然自由地产生幻觉并将虚假信息自信地呈现为事实并没有在演示中提及。该死的东西建议某人不要在求职面试中戴愚蠢的帽子，所以闭嘴并坐下：未来终于来了！

与此同时，像 Meta 的 Galactica 这样的公然失败——这个科学 LLM 在推出后立即幻想着摆脱了任何实用性——被迅速扫到地毯下。这样一个模型的推出暗示了正在发挥作用的沉没成本谬误——或者只是人们相信他们自己的炒作。这两种选择都不是稳健的商业行为和可靠的投资机会的标志。

似乎现实终于赶上了炒作，热情也如预期的那样开始消退。不止一位律师在工作中使用了 ChatGPT，最终陷入了严重的麻烦，不得不为错误的引用和幻觉的法庭案件承担责任。本能的反应可能是嘲笑这些律师，但在这种情况下，一些反思可能是相关的。信任 ChatGPT 是愚蠢的吗？是的，当然。如果不是律师，谁应该在使用产品之前研究产品的细则？尽管如此，这种行为反映了很多人对 AI 的期望：如果 LLM 甚至无法获得简单的案例引用，那它有什么用？ 考虑到炒作，这感觉像是基本的最低要求。它甚至不需要推理或创造力，它只需要正确地背诵有据可查的事实。

即使在精通技术的人中，炒作也很强烈——或者至少曾经很强烈。不久前，与从事 IT 工作的聪明、成功人士的对话完全转向 AI 幻想领域是很常见的。关于 LLM 如何在仅仅基于少数孤立的 KPI 的基础上推断出成功的公司预算_和_战略的疯狂想法显然看起来完全合理。或者，基于相同的少量 KPI，LLM 也许可以撰写一份完整的年度财务报告，可以付印？仅仅一年之内，像这样的建议就明显减少了。

事实是，到目前为止，LLM 甚至还没有接近这一点。事实上，他们甚至无法可靠地总结文本，因为他们可能会错过隐藏在其中的一条重要信息。从 LLM 中出来的任何将在任何重要场合使用的东西都必须经过人工的彻底复核。恭喜：现在的手动工作量包括仔细检查的不是一个，而是两个文本主体！

尽管如此，LLM 可能、在_某种程度上_在_某些_时候会有用。以编程为例。我们离“无代码”开发还很远，在“无代码”开发中，一个有想法的人在提示中输入一些请求就是 AI 生成一个可用的软件所需要的全部。即使对于相当简单的案例，我们离可靠和一致的代码生成也很远。

但是，对于用常用语言在常用框架中完成的常见任务，LLM 可以生成样板代码，然后由程序员对其进行更正和扩展。或者，对于某些任务，它可以生成开发人员不熟悉的语言的代码，然后可以使用一些人类的知识和创造力来测试和更正该代码。

另一方面，例如，当使用 20 多年前的遗留代码库时，LLM 的用处较小。可靠地查找错误、回溯以前的决策，甚至理解和修改现有代码也是如此。或者如何_激励_一个决定——例如，向请求它的人解释为什么不能完成某些事情？

图像生成、机器翻译甚至医疗应用也是如此。对于高度特定的用例，人类专业人员可以在某种程度上得到帮助。在更加具体的案例中，也许可以完全取代人类——例如，用于制作一打廉价科幻小说的封面。在所有其他情况下，它只不过是一种有趣的创新，会反复且可预测地编造胡说八道、搞砸基本的人体解剖结构或错误地翻译关键的特定领域词语。我们目前还不能信任一台完美无缺的机器。

这也适用于自动驾驶汽车。长期以来，封闭系统中的无人驾驶汽车一直在使用中。哥本哈根地铁，例如，自 2002 年以来一直在运营——但像国际象棋引擎一样，它不是“AI”：它只是“自动化”。目前可用的软件很可能使人类驾驶员更加舒适和安全，但炒作已经承诺完全自主的汽车在交通高峰时段可靠地四处行驶。

就像没有幻觉的 LLM 一样，这种情况“近在咫尺”已经有一段时间了。实际上，该软件仍然无法识别日常交通中出现的许多令人困惑的情况，更重要的是，它缺乏相应地进行即兴创作的能力。就目前而言，它有助于完成某些任务，但只能在持续的人工监督下进行。

最近，我想将 Microsoft 的 Edge 浏览器中的起始页从他们臃肿的 Bing 怪物更改为空白页。我在 Bing 上搜索了一个答案，但找不到。然后我决定尝试一下聊天机器人，正如 Bing 本身建议的那样。结果是完全且明确地荒谬：机器人只是用一个经过略微改写的版本回答了排名最高的搜索结果。当指出该答案提到了不存在的菜单选项和设置时，机器人只是道歉并提供了下一个搜索结果的改写版本，该结果同样无用。

作为一名对计算机和软件有广泛了解的专业程序员，我可以理解为什么会发生这种情况。作为最终用户，这既令人困惑又令人失望：Microsoft 自己的聊天机器人在 Microsoft 自己的网站上在 Microsoft 自己的浏览器上运行，无法回答有关如何配置同一浏览器的简单问题。它甚至不是“胜过一无所有”：它是对时间和精力的毫无价值的浪费，使“足够好”看起来像一个糟糕的玩笑。如果它不知道，或者如果设置不存在，为什么它不这么说呢？如果有一个设置，为什么它不能为我修复它呢？当然，Microsoft AI 应该知道如何安全且正确地操作 Microsoft 自己的旗舰产品之一。

当前炒作的支持者当然会说，这些问题可以并且将会得到纠正。借助足够大的数据集和足够广泛的强化训练，幻觉和徒劳的追逐将会消失。或者，至少，我们将以某种方式获得可以说“我不知道”而不是吐出垃圾的模型。

就我个人而言，我并不信服——但让我们慷慨地想象一下这是可以实现的。那会是什么样子？

如果公众对自动驾驶汽车的信心要与炒作相匹配，这些汽车必须表现得_完美无瑕_。它们不能仅仅像普通的人类驾驶员一样好。它们的错误必须非常罕见且良性，以至于它们在统计上完全无关紧要，并且它们的性能必须在恶劣的天气条件下和不合格的道路上可靠。即便如此，当涉及到保险和法院强制受害者赔偿等问题时，必须以令人满意的方式解决问责制问题。

如果我们要能够使用 LLM 来取代某些职业，他们至少必须与普通人相匹配，同时产生一致、可靠和可重现的结果，同时犯更少且成本更低的错误。而且，它们当然应该能够在_没有广泛而乏味的提示工程_的情况下做到这一点。责任和义务的问题在这里也迫在眉睫。

第三类是聊天机器人尽管存在缺陷，但已经取代了人类。事实上，客户支持似乎非常适合 AI：它已经非常恰当地成为了一个反乌托邦的噩梦。交互式语音应答、僵化的故障排除流程图、脚本式回复、零代理或宽容和糟糕的工作条件。谁在乎 LLM 是否无法交付？普遍的观念似乎已经是，如果投诉不在前三名之列，则不存在处理它的程序。然后，客户成为发誓的敌人——尽管是法律上要求在合同期间继续付款的敌人。

半开玩笑地说，一个有时会呕吐出虚假甚至危险答案的“数字客户助理”是否能确保平稳且有利可图的公司运营？与其他技术和人员配置选项相比，从长远来看，它的价格是否足够便宜，值得权衡？而且，最重要的是，糟糕的客户支持真的是 AI 公司向投资者和消费者销售的产品吗？

Microsoft Copilot 查询要求提供一件没有条纹的衬衫的屏幕截图。排名第一的结果描述了一件没有熨烫的条纹衬衫。 你说的是一件没有条纹的衬衫? 即使涉及到像 LLM 辅助编程这样的事情，一个技术精湛的开发人员_可能、有时、在某种程度上_可以获得性能提升，最相关的问题也不是是否可以完全做到——而是可以做到_足够好_的事情是否也可以做到_有利可图_。GPU 的数量以及所需日益昂贵的能源的数量仍然不清楚，完成它所需的时间框架也不清楚。

尽管如此，炒作大师们仍然不时地忍不住暗示artificial general intelligence（通用人工智能）——“会思考的机器”。很快就会出现！而最后一个不能真正按照我们说的去做 LLM？那不是真正的 AI。但这一次，它是。说真的。保证。有点。因此，对于每个新的 LLM 版本，用户对 AI 炒作的失望似乎都在增加。

而且，让我们甚至不要开始讨论训练集中的知识产权、生成内容的版权和所有权以及对错误信息或行为的责任。这些是公司律师迫不及待想要大显身手的领域，如果有机会的话。谁不想卷入与 Disney 或 IBM 之间关于什么是合理使用或专利代码的重大而多汁的诉讼？相信我，投资者和高管们_喜欢_这种事情！

整个科技行业的形势目前看起来相当黯淡。经济不再允许零利率贷款或将无尽的资金投入到对“很快就会实现”的模糊承诺中。AI 似乎是这种做法的最后堡垒：例如，OpenAI 最近因其收入创纪录的增长而受到赞扬，并获得了大量的资金注入。

但我们只能假装这么长时间，现在的收入说明不了未来的利润。仍然没有迹象表明可靠的 AI 是否会满足足够广泛的客户群，使用起来是否足够便宜，以及是否保持足够的利润来依靠自己两条众所周知的机器人腿站立。

我当然可能完全错了。也许我们很快就会被少数与远程 AI 的 API 连接的非常小的 shell 脚本所取代。但是，不管应不应该，在我看来，寒冬更有可能即将到来。