ProPublica 如何在其调查中负责任地使用 AI
[ PROPUBLICA 新闻是混乱的,真相并非如此。帮助 ProPublica 挖掘事实。 捐赠 ]
ProPublica 如何在其调查中负责任地使用 AI
当我们的记者使用大型语言模型来帮助识别资助数据库中的“觉醒”主题时,AI 帮助他们讲述了一个关于科学资金和 Ted Cruz 的重要问责故事。
作者:Charles Ornstein 2025年3月13日,美国东部时间上午8点
ProPublica 是一家调查滥用权力的非营利新闻机构。这篇文章最初发表在我们的 Dispatches 新闻通讯中;注册以接收我们记者的笔记。
今年 2 月,我的同事 Ken Schwencke 在社交媒体网络 Bluesky 上看到一篇关于参议员 Ted Cruz 发布的一个数据库的帖子,该数据库声称显示了美国国家科学基金会 (National Science Foundation) 授予的 3400 多项“觉醒”拨款,这些拨款“促进了多元化、公平和包容性 (DEI) 或推进了新马克思主义的阶级战争宣传”。
鉴于 Schwencke 是我们的数据和新闻应用高级编辑,他下载了数据,仔细研究后发现一些拨款似乎与 Cruz(一位德克萨斯州共和党人)所说的“激进左派的觉醒胡说八道”相去甚远。这些拨款包括 Schwencke 认为的佛罗里达大学引力波探测器先进反射镜涂层开发方面的“听起来非常酷的项目”,那是他的母校。
然而,拨款说明确实提到该项目“促进教育和多样性,为不同教育水平的学生提供研究机会,并促进妇女和代表性不足的少数族裔的参与”。
Schwencke 认为,将数据输入 AI 大型语言模型(为 ChatGPT 提供支持的模型之一)以了解 Cruz 名单上的拨款类型以及它们可能被标记的原因会很有趣。他意识到这里面有一个问责的故事可以讲。
在那篇文章中,Agnel Philip 和 Lisa Song 发现“Cruz 的一网打尽囊括了许多科学项目,这些项目由美国国家科学基金会资助,只是承认了社会不平等,或者与他的委员会引用的社会或经济主题完全无关。”
我们正在关注
在 Donald Trump 的第二个总统任期内,ProPublica 将专注于最需要仔细审查的领域。以下是我们记者将关注的一些问题,以及如何安全地与他们取得联系。
详细了解我们的报道团队。 随着新闻的发展,我们将继续分享我们感兴趣的领域。
其中包括:一项 47 万美元的拨款,用于研究薄荷植物的进化以及它们如何在各大洲传播。据 Philip 和 Song 所知,该项目被标记是因为其向 NSF 提交的申请中使用了两个特定的词:“diversify”(多样化),指的是植物的生物多样性,以及 “female”(女性),申请中指出该项目将如何支持研究团队中的一位年轻女科学家。
另一个项目涉及开发一种可以治疗严重出血的设备。它包括“victims”(受害者)——例如枪击受害者——和“trauma”(创伤)这两个词。
Cruz 的办公室以及参议院商业、科学和运输委员会共和党发言人均未回复我们对文章发表评论的请求。
这个故事很好地说明了人工智能如何帮助记者分析大量数据并尝试识别模式。
首先,我们告诉 AI 模型模仿一名调查记者阅读这些拨款,以确定它们是否包含寻找“觉醒”的人可能发现的主题。最关键的是,我们确保告诉模型如果不确定就不要猜测。(众所周知,AI 模型会产生幻觉,我们希望防止这种情况发生。)
对于刚接触 AI 的新闻编辑室以及好奇这在实践中如何运作的读者,以下是我们使用的实际提示的摘录:
背景:我们将向您展示美国国家科学基金会的拨款,这些拨款已被指定取消,因为它们包含共和党参议员 Ted Cruz 办公室确定的主题,例如涉及觉醒意识形态;多元化、公平和包容性;或亲马克思主义意识形态。我们正在分析此列表中奖励描述的主题,以确定可能具有哪些被认为是“觉醒”或与多元化、公平和包容性 (DEI) 相关联的术语或主题。您的任务是确定文本是否包含这些主题,并告诉我您发现了什么。仅从 NSF 拨款中提取信息(如果它包含所请求的信息)。
作为一名调查记者,我正在寻找以下信息
woke_description
:关于为什么这项拨款因提倡“觉醒”意识形态、多元化、公平和包容性 (DEI) 或高级新马克思主义阶级战争宣传而被单独挑出来的简短描述(最多一段)。如果不清楚,请留空。
why_flagged
:查看“STATUS”、“SOCIAL JUSTICE CATEGORY”、“RACE CATEGORY”、“GENDER CATEGORY”和“ENVIRONMENTAL JUSTICE CATEGORY”字段。如果已填写,则表示本文档的作者认为该拨款以这种方式促进了 DEI 意识形态。分析“AWARD DESCRIPTIONS”字段,看看您是否可以弄清楚作者可能以这种方式标记它的原因。以透彻且易于理解的方式编写它,每种类型和奖励只有一种描述。
citation_for_flag
:提取非常简洁的文本,引用“AWARDS DESCRIPTIONS”中支持“why_flagged”数据的段落。
当然,我们的工作人员在发布我们的故事之前审查并确认了每一个细节,并且我们致电所有具名人士和机构征求意见,即使在 AI 的世界中,这也仍然是必须做的事情。
Philip 是撰写上述查询和故事的记者之一,他对潜在的新技术感到兴奋,但同时也像我们整个新闻编辑室一样谨慎行事。
“这项技术在线索生成和引导我们朝着正确的方向发展方面具有巨大的潜力,”他告诉我。“但以我的经验来看,它仍然需要大量的人工监督和审查。如果使用得当,它可以真正加快理解大量信息的过程,而且如果你在提示方面有创造力并批判性地阅读输出,它可以帮助你发现你可能没有想到的事情。”
这只是 ProPublica 尝试使用 AI 更好地、更快地完成我们的工作,同时以负责任的方式使用它,以帮助我们的人工记者的最新努力。
2023 年,我们与当地报道网络合作伙伴《盐湖城论坛报》合作,使用 AI 帮助揭示犹他州许可机构处分的心理健康专业人员中性行为不端行为的模式。该调查依赖于大量纪律报告,涵盖了各种潜在的违规行为。
为了缩小我们感兴趣的案例类型,我们提示 AI 审查这些文件并识别与性行为不端相关的案例。为了帮助机器人完成其工作,我们向它提供了我们已经熟悉的已确认的性行为不端案例的示例,以及要查找的特定关键字。然后,每个结果都由两名记者审查,他们使用许可记录来确认其分类是否正确。
此外,在我们对 2022 年德克萨斯州乌瓦尔德学校枪击事件的报道中,ProPublica 和《德克萨斯论坛报》获得了该州调查期间收集的大量未发布原始材料。这包括数百小时的音频和视频录音,这些录音很难筛选。这些镜头没有组织或明确标记,而且其中一些对于记者来说非常生动且令人不安。
我们使用了自托管的开源 AI 软件来安全地转录和帮助分类这些材料,这使记者能够匹配相关文件并重建当天的事件,详细地展示了执法的准备不足如何导致对抗枪击者的延误。
我们完全知道 AI 并不能复制我们所做的非常耗时的工作。我们的记者撰写我们的故事、我们的新闻通讯、我们的标题以及较长故事顶部的要点。我们也知道关于 AI 有很多需要调查的地方,包括营销其产品的公司、他们如何培训他们以及他们构成的风险。
但在我们看来,也有可能将 AI 用作众多报告工具之一,使我们能够创造性地检查数据并追寻那些帮助您了解塑造我们世界的力量的故事。
Agnel Philip、Ken Schwencke、Hannah Fresques 和 Tyson Evans 贡献了报道。
归档于 —