提出好问题比给出好答案更难:AI 智能评估的缺失环节
Humane Ingenuity
Subscribe Archives March 18, 2025
提出好问题比给出好答案更难
我们用来评估 AI 智能的测试,缺失了人类探究的一个重要方面——提问本身
by Dan Cohen
× Close dialog
苏格拉底即将饮下毒芹汁的画作,他的门徒们沮丧地转过头去。 Jacques-Louis David, “The Death of Socrates,” 1787, Metropolitan Museum of Art。 也许他问了太多好问题
最近,我削尖了一支 #2 铅笔,参加了“Humanity's Last Exam.” 历史部分的考试。这个考试由 3,000 道极其困难的问题组成,其目的是为 AI 而设,而不是为我。根据其创建者和贡献者的说法,一旦一个聪明的 bot 考取 A,Humanity’s Last Exam 将告诉我们,通用人工智能(artificial general intelligence)已经到来,足以取代人类。
我得了 F。实际上,比这还糟:我的答案中只有一个是正确的,而且我必须承认,这要归功于这个问题是多项选择题。对于一个拥有历史学博士学位的人来说,这相当令人尴尬。
发生了什么?让我沉溺于一种标准的学术避免羞辱的技巧:审查考官。这是一个容易得多的练习。在测试的数千个问题中,只有 16 个是关于历史的。相比之下,超过 1,200 个是关于数学的。对于一个所谓的“全人类知识测试”来说,这是一个相当粗鲁的比例,也是我评估该考试的一个主要缺点。
这种冒犯进一步延伸到所涵盖的历史主题。在 16 个历史问题中,其中四个——占历史理解的 25%!——是关于海战的。我承认我对各种军舰的排水量知识薄弱。其他问题是拜占庭式的,可惜不是字面意义上的拜占庭式,而是比喻意义上的,漫长的叙事旅程充满了曲折,显然试图通过用无数晦涩的术语淹没其记忆来迷惑任何 AI。这些问题肯定成功地迷惑了我。
我不会在这里重现历史问题,因为 Humanity’s Last Exam 的创建者不希望 AI 在参加测试之前抢先看到这些问题。当然,这又提出了另一个问题:一个真正的超级智能会作弊吗?我觉得它会的?如果你,大概是一个人类读者,想自己参加测试,你可以在 Hugging Face 和 GitHub 上找到一个问题数据库。我还应该指出,我没有参加考试的“经典”部分,因为我是现代史学家,不懂拉丁语、希腊语等,但该部分的大部分也是历史,也许是因为古代世界也 有 海战 的。
虽然我没有通过 Humanity’s Last Exam,但我确实学到了一些关于我们目前对 AI 的评估以及我们对它的期望。HLE 对“智能”的隐含定义是能够为复杂的问题提供正确的答案,而这只是许多类似考试中的一个。另一个不太关注海战的测试基于一个全面的全球历史数据库,但仍然依赖于问答对,以便它可以为每个 LLM 的能力提供数字分数。在发布其最新模型时,AI 公司会吹嘘这些评估工具的改进,这使他们能够宣布明确的 AI 进步:“这个 LLM 在博士级别的历史考试中得了 92%,高于去年的 56%!”
公司们对真正令人印象深刻的进步并没有说错。 六年前,在本 newsletter 中,我写过我使用 Google 和 Microsoft 的计算机视觉 API 进行的一些初步测试,这是分析我的图书馆最近从 Boston Globe 收购的照片停尸房的首次尝试。有一些希望的曙光,这些 pre-GPT 工具可以帮助我们识别数百万缺乏严格元数据的照片中的主题,我发现即使 80% 的准确率也很可观。现在,我们图书馆的数字团队比我更有能力,已经创建了一个抽象的界面,连接到所有主要的 multimodal AI 服务,并且正在测试这些服务提供主题标题和描述的能力,结果要好得多(尽管所有服务仍然不完善)。
历史学家 Benjamin Breen 记录了类似的进展。最新的模型在某些方面与历史学一年级博士生相当,能够提供扎实的背景知识以及对文档和图像的高级解释,即使是需要大量领域背景知识的复杂文档和图像。前沿模型在其他任务(例如翻译和转录)方面比大多数博士生要好得多。历史文献的手写识别一直是计算机科学家最难解决的问题之一,而攻克它将对历史研究产生重大影响。历史学家 Cameron Blevins 已经表明,定制的 GPT 正在走向一种解决方案,该解决方案可以使档案和特殊馆藏以多种方式更易于搜索和阅读,从而可能改变我们进行历史研究的能力。这些对人工智能的其他测试表明,重要的 AI 进展可能不在于某种考试终局,即对难题的完美答案,而在于研究项目中重要的,但经常被隐藏的中间阶段,即证据被组装和解释的阶段。
在关于 AI 和智能的讨论中,目前更被忽视的是,博士级别的工作不仅仅是给出正确的答案。它更多的是 提出独特的、不常见的问题。最终,我们可能想要答案,但我们必须从新的查询、新的兴趣领域开始。在更好地理解过去和现在的过程中,历史上的好问题最终可能需要对铭文进行准确的翻译或确定海上小冲突的位置。但首先,我们必须想象今天为什么有人应该关心这些文件和事件,设想它们可能如何塑造了我们的世界。这是一个更大的挑战。
最充满活力的历史研究始于出乎意料的问题,这些问题因此具有启发性。例如,最近在本 newsletter 中,我介绍了一本书,这本书起源于看似简单的查询“为什么管弦乐表演的观众变得安静了,而以前他们很吵闹?”在我阅读 Listening in Paris 之前,我天真地认为音乐会上永远适当的行为是保持尊敬的安静。通过提出这个好奇的问题,James Johnson 能够揭示音乐、作曲家和观众的性质和关系发生的一个重大变化,即使我们的音乐品味在很大程度上发生了变化,这种变化至今仍然引起共鸣。
其他对我产生影响的书籍也起源于同样新颖的问题。为什么在相对较短的时间内,英国人彻底改变了他们对某些动物的看法,比如狗,从蓬头垢面的野兽到令人愉快的家庭成员,自豪地梳妆打扮并在狗展上游行?为什么现代科学的典范 Isaac Newton 在炼金术上写的比在物理学或数学上写的还要多?战争的经历——不是海战的抽象战术,而是实际的第一人称经历——如何深刻地改变个体士兵,然后集体地改变整个文化?
AI 是否能够产生历史上的好 问题 而不是好的 答案?我将在另一篇 newsletter 中解决这个重要问题。
阅读更多:
-
AI 与学习之间未解决的张力 如果使用 AI 加速教育,我们会不会失去一些关键的学习方面,而这些方面最终会被证明是有问题的?
-
AI 即将影响学术界 下一代 AI 模型现在正在吸收学术内容,试图消除它们的幻觉。但另一种可能性隐约可见:AI 反而会将学术界拖入其泥泞的领域。
不要错过接下来发生的事情。订阅 Humane Ingenuity: 你的电子邮件 (you@example.com) 订阅 custom