AI as Normal Technology
AI 常规化技术:一种看待人工智能的新视角
Sébastien A. Krier 使用 Midjourney 6.1
论文与学术研究
AI as Normal Technology
对 AI 作为潜在超级智能的另一种替代愿景 作者:Arvind Narayanan & Sayash Kapoor 2025年4月15日
人工智能与民主自由
一个研究先进 AI 系统如何可能损害或帮助加强民主自由的项目
我们将人工智能 (AI) 阐述为一种常规技术的愿景。将 AI 视为常规技术并非低估其影响——即使是像电力和互联网这样的变革性通用技术,在我们的概念中也是“常规”的。但这与对 AI 未来的乌托邦式和反乌托邦式愿景形成对比,后者通常倾向于将 AI 视为一种独立的物种,一种高度自主、可能具有超级智能的实体。1
- Nick Bostrom. 2012. The superintelligent will: Motivation and instrumental rationality in advanced artificial agents. Minds and Machines 22, 2 (May 2012), 71–85. https://doi:10.1007/s11023-012-9281-3; Nick Bostrom. 2017. Superintelligence: Paths, Dangers, Strategies (reprinted with corrections). Oxford University Press, Oxford, United Kingdom; Sam Altman, Greg Brockman, and Ilya Sutskever. 2023. Governance of Superintelligence (May 2023). https://openai.com/blog/governance-of-superintelligence; Shazeda Ahmed et al. 2023. Building the Epistemic Community of AI Safety. SSRN: Rochester, NY. doi:10.2139/ssrn.4641526.
“AI 是一种常规技术”这一论断包含三层含义:对当前 AI 的描述,对 AI 可预见未来的预测,以及关于我们应如何对待 AI 的建议。 我们将 AI 视为一种我们可以并且应该保持控制的工具,并且我们认为,实现这一目标不需要采取激烈的政策干预或技术突破。我们认为,将 AI 视为类似人类的智能,无论在当前还是在我们对未来的展望中,对于理解其社会影响既不准确也没有帮助。2 2. 这不同于这样一个问题,即对于个体用户而言,将特定 AI 系统概念化为工具,而不是像实习生、同事或导师那样的人类实体,是否有帮助。
常规技术框架关注技术与社会之间的关系。它拒绝技术决定论,特别是将 AI 本身视为决定其未来的代理人的观点。它以过去技术革命的经验为指导,例如技术采用和传播的缓慢和不确定性。它还强调 AI 在社会影响方面过去和未来轨迹之间的连续性,以及机构在塑造这一轨迹中的作用。
在第一部分中,我们将解释为什么我们认为变革性的经济和社会影响将会是缓慢的(以数十年为单位),区分 AI 方法、AI 应用和 AI 采用,并辩称这三者发生在不同的时间尺度上。
在第二部分中,我们将讨论在拥有先进 AI(但不是我们通常概念化的“超级智能” AI)的世界中,人类和 AI 之间潜在的分工。在这个世界中,控制权主要掌握在人和组织手中;实际上,人们在工作中越来越大部分是在进行 AI 控制。
在第三部分中,我们将研究 AI 作为常规技术对 AI 风险的影响。我们将分析事故、军备竞赛、滥用和不一致,并辩称,与将 AI 视为类人智能相比,将 AI 视为常规技术会对缓解措施产生根本不同的结论。
当然,我们无法确定我们的预测,但我们的目标是描述我们认为的中位数结果。我们没有尝试量化概率,但我们试图做出能够告诉我们 AI 是否表现得像常规技术那样的预测。
在第四部分中,我们将讨论对 AI 政策的影响。我们提倡将减少不确定性作为首要政策目标,并将弹性作为应对灾难性风险的首要方法。我们认为,如果 AI 最终证明是一种常规技术,那么以难以控制的超级智能 AI 为前提的激烈干预实际上会使情况变得更糟——其缺点可能类似于在资本主义社会中部署的先前技术(例如不平等)的缺点。3 3. Daron Acemoglu and Simon Johnson. 2023. Power and Progress: Our Thousand-Year Struggle over Technology and Prosperity .PublicAffairs, New York, NY.
我们在第二部分中描述的世界是 AI 比今天先进得多的世界。我们并不是说 AI 的进步——或人类的进步——会在那时停止。那之后会发生什么?我们不知道。考虑一下这个类比:在第一次工业革命初期,尝试思考工业世界会是什么样子以及如何为其做好准备会很有用,但试图预测电力或计算机将是徒劳的。我们在这里所做的练习是相似的。由于我们拒绝“快速起飞”情景,因此我们认为没有必要或有用去设想比我们尝试过的更遥远的世界。如果并且当我们描述的第二部分中的情景实现时,我们将能够更好地预测和为接下来发生的事情做好准备。
致读者须知。 本文的非同寻常的目标是陈述一种世界观,而不是捍卫一个命题。关于 AI 超级智能的文献浩如烟海。我们没有尝试对潜在的反驳论点做出逐点回应,因为这将使本文的篇幅增加数倍。本文仅仅是我们观点的初步阐述;我们计划在各种后续行动中详细阐述它们。
第一部分:进步的速度
图 1. 与其他通用技术一样,AI 的影响不是在方法和能力改进时实现的,而是在这些改进转化为应用程序并渗透到经济的生产部门时实现的。4 每个阶段都有速度限制。 4. Jeffrey Ding. 2024. Technology and the Rise of Great Powers: How Diffusion Shapes Economic Competition. Princeton University Press, Princeton.
AI 的进步是渐进的,允许人们和机构随着 AI 能力和采用率的提高而适应,还是会出现导致大规模破坏甚至技术奇点的跳跃?我们解决这个问题的方法是将高度重要的任务与不太重要的任务分开分析,首先分析 AI 的采用和传播速度,然后再回到创新和发明的速度。
我们使用发明来指代新 AI 方法(例如大型语言模型)的开发,这些方法提高了 AI 执行各种任务的能力。创新指的是使用 AI 开发消费者和企业可以使用的产品和应用程序。采用是指个人(或团队或公司)使用某项技术的决定,而传播是指采用水平提高的更广泛的社会过程。对于具有足够破坏性的技术,传播可能需要改变公司和组织的结构,以及社会规范和法律。
AI 在安全关键领域的传播速度缓慢
在论文《反对预测优化》中,我们编制了一份全面的清单,其中包含约 50 个预测优化的应用,即使用机器学习 (ML) 通过预测个人的未来行为或结果来做出关于个人的决策。5 大多数这些应用程序,例如犯罪风险预测、保险风险预测或虐待儿童预测,都用于做出对人们具有重要后果的决策。 5. Angelina Wang et al. 2023. Against predictive optimization: On the legitimacy of decision-making algorithms that optimize predictive accuracy. In Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency (Chicago, IL, USA: ACM, 2023), 626–26. doi:10.1145/3593013.3594030.
虽然这些应用程序已经激增,但有一个关键的细微差别:在大多数情况下,使用的是几十年前的统计技术——简单、可解释的模型(主要是回归)和相对较小的手工特征集。很少使用更复杂的机器学习方法,例如随机森林,而且现代方法(例如转换器)根本找不到。
换句话说,在这个广泛的领域中,AI 的传播落后于创新几十年。一个主要原因是安全——当模型更复杂且更难理解时,很难预测测试和验证过程中的所有可能部署条件。一个很好的例子是 Epic 的败血症预测工具,尽管在内部验证时似乎具有很高的准确性,但在医院中的表现却要差得多,错过了三分之二的败血症病例,并让医生不堪重负,发出了错误的警报。6 6. Casey Ross. 2022. Epic’s Overhaul of a Flawed Algorithm Shows Why AI Oversight Is a Life-or-Death Issue. STAT. https://www.statnews.com/2022/10/24/epic-overhaul-of-a-flawed-algorithm/.
Epic 的败血症预测工具失败的原因是,当您拥有具有不受约束的特征集的复杂模型时,很难发现这些错误。7 特别是,用于训练模型的特征之一是医生是否已经开了抗生素——用于治疗败血症。换句话说,在测试和验证期间,该模型使用的是来自未来的特征,依赖于一个在因果关系上依赖于结果的变量。当然,在部署期间无法获得此功能。毫无疑问,可解释性和审计方法将会改进,以便我们能够更好地发现这些问题,但我们尚未达到这一步。 7. Andrew Wong et al. 2021. External validation of a widely implemented proprietary sepsis prediction model in hospitalized patients. JAMA Internal Medicine 181, 8 (August 2021), 1065–70, https://doi:10.1001/jamainternmed.2021.2626.
就生成式 AI 而言,即使是事后看起来极其明显的失败,也没有在测试期间被发现。一个例子是早期的 Bing 聊天机器人“Sydney”,它在长时间的对话中偏离了轨道;开发人员显然没有预料到对话可能会持续超过少数几个回合。8 同样,Gemini 图像生成器似乎从未在历史人物身上进行过测试。9 幸运的是,这些不是高度重要的应用程序。 8. Kevin Roose. 2023. A Conversation With Bing’s Chatbot Left Me Deeply Unsettled. The New York Times (February 2023). https://www.nytimes.com/2023/02/16/technology/bing-chatbot-microsoft-chatgpt.html. 9. Dan Milmo and Alex Hern. 2024. ‘We definitely messed up’: why did Google AI tool make offensive historical images? The Guardian (March 2024). https://www.theguardian.com/technology/2024/mar/08/we-definitely-messed-up-why-did-google-ai-tool-make-offensive-historical-images
更多的实证工作将有助于理解各种应用程序中的创新传播滞后以及这种滞后的原因。但是,就目前而言,我们在之前的工作中分析过的证据与这样一种观点相一致,即在高度重要的任务中,已经存在极其强大的与安全相关的速度限制。这些限制通常通过法规来执行,例如 FDA 对医疗设备的监督,以及更新的立法,例如欧盟 AI 法案,该法案对高风险 AI 提出了严格的要求。10 事实上,有人(可信地)担心,对高风险 AI 的现有法规过于繁重,可能会导致“失控的官僚主义”。11 因此,我们预测,在高度重要的任务中,缓慢的传播将继续成为常态。 10. Jamie Bernardi et al. 2024. Societal adaptation to advanced AI. arXiv: May 2024. Retrieved from http://arxiv.org/abs/2405.10295; Center for Devices and Radiological Health. 2024. Regulatory evaluation of new artificial intelligence (AI) uses for improving and automating medical practices. FDA (June 2024). https://www.fda.gov/medical-devices/medical-device-regulatory-science-research-programs-conducted-osel/regulatory-evaluation-new-artificial-intelligence-ai-uses-improving-and-automating-medical-practices; “Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 Laying down Harmonised Rules on Artificial Intelligence and Amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act) (Text with EEA Relevance),” June 2024, http://data.europa.eu/eli/reg/2024/1689/oj/eng. 11. Javier Espinoza. 2024. Europe’s rushed attempt to set the rules for AI. Financial Times (July 2024). https://www.ft.com/content/6cc7847a-2fc5-4df0-b113-a435d6426c81; Daniel E. Ho and Nicholas Bagley. 2024. Runaway bureaucracy could make common uses of ai worse, even mail delivery. The Hill (January 2024). https://thehill.com/opinion/technology/4405286-runaway-bureaucracy-could-make-common-uses-of-ai-worse-even-mail-delivery/.
无论如何,当出现 AI 可以以高度重要的方式使用的新领域时,我们可以并且必须对其进行监管。一个很好的例子是 2010 年的闪电崩盘,据认为自动化高频交易在其中发挥了作用。这导致了对交易的新限制,例如断路器。12 12. Avanidhar Subrahmanyam. 2013. Algorithmic trading, the flash crash, and coordinated circuit breakers. Borsa Istanbul Review 13, 3 (September 2013), 4–9. http://doi:10.1016/j.bir.2013.10.003.
传播受到人类、组织和机构变革速度的限制
即使在安全关键领域之外,AI 的采用速度也慢于流行的说法所表明的那样。例如,一项研究因发现 2024 年 8 月有 40% 的美国成年人使用生成式 AI 而成为头条新闻。13 但是,由于大多数人很少使用它,因此这仅转化为 0.5%-3.5% 的工作时间(以及 0.125-0.875 个百分点的劳动生产率增长)。 13. Alexander Bick, Adam Blandin, and David J. Deming. 2024. The Rapid Adoption of Generative AI. National Bureau of Economic Research.
目前尚不清楚今天的传播速度是否比过去更快。前面提到的研究报告称,美国生成式 AI 的采用速度快于个人计算机 (PC) 的采用速度,在第一个面向大众市场的产品发布后的两年内,有 40% 的美国成年人采用了生成式 AI,而 PC 则在三年内有 20% 的美国成年人采用了生成式 AI。但是,这种比较没有考虑到采用强度(使用小时数)的差异或购买 PC 的高成本与访问生成式 AI 相比。14 根据我们衡量采用方式的不同,生成式 AI 的采用速度很可能比 PC 的采用速度慢得多。 14. Alexander Bick, Adam Blandin, and David J. Deming. 2024. The Rapid Adoption of Generative AI. National Bureau of Economic Research.
技术采用速度不一定提高的说法可能听起来令人惊讶(甚至明显错误),因为数字技术可以一次覆盖数十亿台设备。但是,重要的是要记住,采用是关于软件使用,而不是可用性。即使一个新的基于 AI 的产品立即在线发布,供任何人免费使用,人们也需要时间来改变他们的工作流程和习惯,以利用新产品的好处并学会避免风险。
因此,传播速度本质上受到不仅个人,而且组织和机构适应技术速度的限制。这也是我们在过去通用技术中看到的一种趋势:传播发生在数十年而不是数年内。15 15. Benedict Evans. 2023. AI and the Automation of Work. https://www.ben-evans.com/benedictevans/2023/7/2/working-with-ai; Benedict Evans, 2023; Jeffrey Ding. 2024. Technology and the Rise of Great Powers: How Diffusion Shapes Economic Competition. Princeton University Press, Princeton.
例如,Paul A. David 对电气化的分析表明,生产力收益需要数十年才能完全实现。16 在 Edison 的第一个中央发电站建成后近 40 年,电动发电机“随处可见,但在生产力统计数据中却没有”。17 这不仅仅是技术惯性;工厂主发现电气化并没有带来实质性的效率提升。 16. Paul A. David. 1990. The dynamo and the computer: an historical perspective on the modern productivity paradox. The American Economic Review 80, 2 (1990), 355–61. https://www.jstor.org/stable/2006600; Tim Harford. 2017. Why didn’t electricity immediately change manufacturing? (August 2017). https://www.bbc.com/news/business-40673694. 17. Robert Solow as quoted in Paul A. David. 1990. The dynamo and the computer: an historical perspective on the modern productivity paradox. The American Economic Review 80, 2 (1990), Page 355. https://www.jstor.org/stable/2006600; Tim Harford. 2017. Why didn’t electricity immediately change manufacturing? (August 2017). https://www.bbc.com/news/business-40673694.
最终使收益得以实现的是围绕生产线的逻辑重新设计工厂的整个布局。除了改变工厂架构外,传播还需要改变工作场所组织和流程控制,这只能通过跨行业的实验来开发。由于这些变化,工人拥有了更大的自主性和灵活性,这也需要不同的招聘和培训实践。
外部世界对 AI 创新设置了速度限制
诚然,AI 领域的技术进步是迅速的,但当我们将 AI 方法与应用区分开来时,情况就变得不太明朗了。
我们将 AI 方法的进步概念化为通用性阶梯。18 这个阶梯的每一级都建立在它下面的那一级上,并反映了朝着更通用的计算能力迈进了一步。也就是说,它减少了程序员让计算机执行新任务所需的工作量,并增加了可以使用给定数量的程序员(或用户)工作量执行的任务集;参见图 2。例如,机器学习通过免除程序员设计逻辑来解决每个新任务的需求,而只需要收集训练示例来提高通用性。 18. Arvind Narayanan and Sayash Kapoor. 2024. AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference. Princeton University Press, Princeton, NJ.
人们很容易得出结论,随着我们构建更多的阶梯,开发特定应用程序所需的工作量将会不断减少,直到我们达到人工智能,通常将其概念化为一个可以开箱即用完成所有事情的 AI 系统,从而免除了开发应用程序的需求。
在某些领域,我们确实看到了这种减少应用程序开发工作量的趋势。在自然语言处理领域,大型语言模型使开发语言翻译应用程序变得相对容易。或者考虑游戏:AlphaZero 可以通过自学比任何人类更好地玩国际象棋等游戏,只需对游戏进行描述并提供足够的计算能力——这与过去开发游戏程序的方式相去甚远。
图 2:计算中的通用性阶梯。对于某些任务,更高的阶梯需要的程序员工作量更少,才能让计算机执行新任务,并且可以使用给定数量的程序员(或用户)工作量执行更多任务。 19 19. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. 2012. ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems 25 (2012); Harris Drucker, Donghui Wu, and Vladimir N. Vapnik. 1999. Support vector machines for spam categorization. IEEE Transactions on Neural Networks 10, 5 (September 1999), 1048–54. http://doi:10.1109/72.788645; William D. Smith. 1964. New I.B.M, System 360 can serve business, science and government; I.B.M. Introduces a computer it says tops output of biggest. The New York Times April 1964. https://www.nytimes.com/1964/04/08/archives/new-ibm-system-360-can-serve-business-science-and-government-ibm.html; Special to THE NEW YORK TIMES. Algebra machine spurs research calling for long calculations; Harvard receives today device to solve in hours problems taking so much time they have never been worked out. The New York Times (August 1944). https://www.nytimes.com/1944/08/07/archives/algebra-machine-spurs-research-calling-for-long-calculations.html; Herman Hollerith. 1894. The electrical tabulating machine. Journal of the Royal Statistical Society 57, 4 (December 1894), 678. http://doi:10.2307/2979610.
但是,这并不是高度重要、现实世界应用程序的趋势,这些应用程序不容易模拟,并且错误代价高昂。以自动驾驶汽车为例:在许多方面,它们的开发轨迹与 AlphaZero 的自学类似——改进技术使它们能够在更现实的条件下驾驶,从而能够收集更好和/或更现实的数据,这反过来又导致了技术的改进,完成了反馈循环。但是,与 AlphaZero 几个小时的情况相比,这个过程花费了 20 多年的时间,因为安全考虑限制了与前一次迭代相比,这个循环的每次迭代可以扩展的程度。20 20. Mohammad Musa, Tim Dawkins, and Nicola Croce. 2019. This is the next step on the road to a safe self-driving future. World Economic Forum (December 2019). https://www.weforum.org/stories/2019/12/the-key-to-a-safe-self-driving-future-lies-in-sharing-data/; Louise Zhang. 2023. Cruise’s Safety Record Over 1 Million Driverless Miles. Cruise (April 2023). https://web.archive.org/web/20230504102309/https://getcruise.com/news/blog/2023/cruises-safety-record-over-one-million-driverless-miles/
这种“能力-可靠性差距”一次又一次地出现。它一直是构建可以自动化现实世界任务的有用 AI“代理”的主要障碍。21 需要明确的是,许多设想使用代理的任务(例如预订旅行或提供客户服务)远不如驾驶重要,但仍然足够昂贵,以至于让代理从现实世界体验中学习并非易事。 21. Arvind Narayanan and Sayash Kapoor. 2024. AI companies are pivoting from creating gods to building products. Good. AI Snake Oil newsletter. https://www.aisnakeoil.com/p/ai-companies-are-pivoting-from-creating.
在非安全关键应用程序中也存在障碍。通常,许多知识在组织中是隐性的,没有被写下来,更不用说可以被动学习的形式了。这意味着这些开发反馈循环必须发生在每个部门,并且对于更复杂的任务,甚至可能需要在不同的组织中单独进行,从而限制了快速并行学习的机会。可能限制并行学习的其他原因是隐私问题:组织和个人可能不愿意与 AI 公司共享敏感数据,并且法规可能会限制可以在医疗保健等环境中与第三方共享的数据类型。
AI 中的“痛苦教训”是,利用计算能力提高的通用方法最终将大大超过利用人类领域知识的方法。22 这是对方法的宝贵观察,但它经常被误解为包含应用程序开发。在基于 AI 的产品开发背景下,痛苦的教训从未接近于真实。23 考虑一下社交媒体上的推荐系统:它们由(越来越通用的)机器学习模型提供支持,但这并没有免除手动编码业务逻辑、前端和其他组件的需求,这些组件加在一起可以包含大约一百万行代码。 22. Rich Sutton. 2019. The Bitter Lesson (March 2019). http://www.incompleteideas.net/IncIdeas/BitterLesson.html. 23. Arvind Narayanan and Sayash Kapoor. 2024. AI companies are pivoting from creating gods to building products. Good. AI Snake Oil newsletter. https://www.aisnakeoil.com/p/ai-companies-are-pivoting-from-creating
当我们需要超越 AI 从现有人类知识中学习时,会出现进一步的限制。24 我们最有价值的一些知识类型是科学和社会科学,它们通过技术和大规模社会组织(例如政府)实现了文明的进步。AI 需要什么才能突破这些知识的界限?它可能需要与人或组织进行互动甚至进行实验,范围从药物测试到经济政策。在这里,由于实验的社会成本,知识获取的速度存在硬性限制。社会可能不会(也不应该)允许快速扩大 AI 开发实验的规模。 24. Melanie Mitchell. 2021. Why AI is harder than we think. arXiv preprint. Retrieved from http://arxiv.org/abs/2104.12871, April 2021), https://arxiv.org/abs/2104.12871.
基准测试不衡量现实世界的实用性
方法与应用的区别对于我们如何衡量和预测 AI 的进步具有重要的影响。AI 基准测试对于衡量方法方面的进步非常有用;不幸的是,它们经常被误解为衡量应用方面的进步,而这种混淆是导致人们对经济转型即将到来的大量炒作的原因。
例如,虽然据报道 GPT-4 在律师资格考试测试者的前 10% 中取得了分数,但这告诉我们 AI 执业律师的能力的信息非常少。25 律师资格考试过分强调学科知识,而低估了在标准化、计算机管理的格式中更难衡量的现实世界技能。换句话说,它强调的正是语言模型擅长的内容——检索和应用记忆的信息。 25. Josh Achiam et al. 2023. GPT-4 technical report. arXiv preprintarXiv: 2303.08774; Peter Henderson et al. 2024. Rethinking machine learning benchmarks in the context of professional codes of conduct. In Proceedings of the Symposium on Computer Science and Law; Varun Magesh et al. 2024. Hallucination-free? Assessing the reliability of leading AI legal research tools. arXiv preprint arXiv: 2405.20362; Daniel N. Kluttz and Deirdre K. Mulligan. 2019. Automated decision support technologies and the legal profession. Berkeley Technology Law Journal 34, 3 (2019), 853–90; Inioluwa Deborah Raji, Roxana Daneshjou, and Emily Alsentzer. 2025. It’s time to bench the medical exam benchmark. NEJM AI 2, 2 (2025).
更广泛地说,会导致法律行业发生最重大变化的任务也是最难评估的任务。对于像按法律领域对法律请求进行分类这样的任务,评估很简单,因为有明确的正确答案。但是对于涉及创造力和判断力的任务,例如准备法律文件,没有一个正确的答案,并且理性的人可能会对策略产生分歧。如果将这些后来的任务自动化,将对该行业产生最深刻的影响。26 26. Sayash Kapoor, Peter Henderson, and Arvind Narayanan. Promises and pitfalls of artificial intelligence for legal applications. Journal of Cross-Disciplinary Research in Computational Law 2, 2 (May 2024), Article 2. https://journalcrcl.org/crcl/article/view/62.
这种观察绝不仅限于法律。另一个例子是 AI 明显擅长的独立编码问题与其实际影响难以衡量但似乎很小的现实世界软件工程之间的差距。27 即使是超越玩具问题的高度评价的编码基准也必须忽略现实世界软件工程的许多维度,以实现量化和使用公开可用数据进行自动化评估。28 27. Hamel Husain, Isaac Flath, and Johno Whitaker. Thoughts on a month with Devin. Answer.AI (2025). answer.ai/posts/2025-01-08-devin.html. 28. Ehud Reiter. 2025. Do LLM Coding Benchmarks Measure Real-World Utility?. https://ehudreiter.com/2025/01/13/do-llm-coding-benchmarks-measure-real-world-utility/.
这种模式反复出现:任务越容易通过基准测试来衡量,它代表定义专业实践的那种复杂、情境化工作可能性就越小。通过大量关注能力基准来了解 AI 的进步,AI 社区始终高估了该技术在现实世界中的影响。
这是一个“结构效度”的问题,指的是测试是否实际衡量了它打算衡量的内容。29 衡量潜在应用程序的实际效用的唯一可靠方法是实际构建该应用程序,然后让专业人员在现实场景中对其进行测试(根据预期用途,要么替代要么增强他们的劳动)。这种“提升”研究通常确实表明,许多职业的专业人员从现有 AI 系统中受益,但这种益处通常是适度的,并且更多地与增强而非替代有关,这与人们可能根据考试等静态基准得出结论的结论截然不同。30 (少数职业,如文案撰写人和翻译人员,已经出现了大量的失业现象31)。 29. Deborah Raji et al. 2021. AI and the everything in the whole wide world benchmark. In Proceedings of the Neural Information Processing Systems (NeurIPS) Track on Datasets and Benchmarks, vol. 1. https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/hash/084b6fbb10729ed4da8c3d3f5a3ae7c9-Abstract-round2.html; Rachel Thomas and David Uminsky. 2020. The problem with metrics is a fundamental problem for AI. arXiv preprint. Retrieved from https://arxiv.org/abs/2002.08512v1. 30. Ashwin Nayak et al. 2023. Comparison of history of present illness summaries generated by a chatbot and senior internal medicine residents. JAMA Internal Medicine 183, 9 (September 2023), 1026–27. http://doi:10.1001/jamainternmed.2023.2561; Shakked Noy and Whitney Zhang. 2023. Experimental evidence on the productivity effects of generative artificial intelligence. Science 381, 6654 (July 2023), 187–92. http://doi:10.1126/science.adh2586; Fabrizio Dell’Acqua et al., “Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality,” Harvard Business School Technology & Operations Mgt. Unit Working Paper, no. 24–13 (2023). 31. Pranshu Verma and Gerrit De Vynck. 2023. ChatGPT took their jobs. Now they walk dogs and fix air conditioners. Washington Post (June 2023). https://www.washingtonpost.com/technology/2023/06/02/ai-taking-jobs/.
总之,虽然基准测试对于跟踪 AI 方法的进展很有价值,但我们应该查看其他类型的指标来跟踪 AI 的影响(图 1)。在衡量采用情况时,我们必须考虑 AI 使用的强度。应用程序的类型也很重要:增强与替代以及高后果与低后果。
确保结构效度的难度不仅影响基准测试,还影响预测,这是人们尝试评估(未来)AI 影响的另一种主要方式。避免不明确的结果对于确保有效的预测至关重要。预测社区实现这一目标的方式是根据相对狭窄的技能(例如考试成绩)来定义里程碑。例如,Metaculus 关于“人机智能均等”的问题是根据数学、物理和计算机科学考试问题的表现来定义的。基于此定义,预测人员预测到 2040 年有 95% 的几率实现“人机智能均等”也就不足为奇了。32 32. Metaculus. 2024. Will there be human-machine intelligence parity before 2040? https://www.metaculus.com/questions/384/humanmachine-intelligence-parity-by-2040/.
不幸的是,这个定义过于淡化,对于理解 AI 的影响意义不大。正如我们在上面看到的法律和其他专业基准测试中,AI 在考试中的表现几乎没有结构效度,它甚至不允许我们预测 AI 是否