LLM 群体中涌现的社会惯例和集体偏见

新闻 职业 评论 期刊

Science

热门话题:

获取我们的电子快讯

首页Science AdvancesVol. 11, No. 20LLM 群体中涌现的社会惯例和集体偏见 返回 Vol. 11, No. 20

开放获取 研究文章 社会科学

LLM 群体中涌现的社会惯例和集体偏见

Ariel Flint Ashery https://orcid.org/0009-0004-4356-5949, Luca Maria Aiello https://orcid.org/0000-0002-0654-2527, and Andrea Baronchelli https://orcid.org/0000-0002-0255-0829作者信息和单位 Science Advances 2025年5月14日 第11卷,第20期 DOI: 10.1126/sciadv.adu9368

上一篇文章指骨皮质骨骼分布揭示了 Australopithecus sedibaHomo naledi 中不同的灵巧和攀爬行为 上一篇###### 下一篇文章 用于AI和数字健康开发的安全,符合法规的 Living Labs 路线图 下一篇

通知 收藏

目录

摘要

社会惯例是社会协调的支柱,影响着个体如何形成群体。随着越来越多的人工智能 (AI) 智能体通过自然语言进行交流,一个根本的问题是它们是否能够引导社会的基础。在这里,我们展示了实验结果,证明了大型语言模型 (LLM) 智能体的去中心化群体中普遍采用的社会惯例的自发涌现。然后,我们展示了即使智能体个体没有表现出偏见,强大的集体偏见如何在此过程中出现。最后,我们研究了由对抗性 LLM 智能体组成的坚定少数群体如何通过将替代社会惯例强加于更大的群体来推动社会变革。我们的结果表明,AI系统可以在没有明确编程的情况下自主发展社会惯例,并对设计与人类价值观和社会目标对齐并保持一致的AI系统具有影响。

注册屡获殊荣的 SCIENCE ADVISER 新闻通讯

最新的新闻、评论和研究,每日免费发送到您的收件箱 注册

介绍

社会惯例塑造着社会和经济生活,决定着个体的行为和期望 (14)。它们可以被定义为群体集体共享的未成文的、任意的行为模式。例子包括从握手或鞠躬等传统问候语到语言和道德判断 (5, 6)。最近的数值 (7, 8) 和实验 (9) 结果证实了这样一种假设,即惯例可以自发产生,而无需任何中心化机构的干预 (3, 5, 10, 11)。个体为了与彼此进行本地协调而做出的努力可以产生普遍接受的惯例。

通用惯例是否也会在大型语言模型 (LLM) 的群体中自发涌现,即在由 LLM 实例化的 N 个模拟智能体的群体中?鉴于 LLM 使用自然语言相互交互以及与人类交互的激增,这个问题对于预测和管理现实世界应用中的人工智能 (AI) 行为至关重要 (1214)。回答这个问题也是确保 AI 系统以符合人类价值观和社会目标的方式行事的先决条件 (15)。

第二个关键问题是,个体 LLM 的偏见如何影响通用惯例的涌现,其中“偏见”指的是在规范形成过程中,对于一个选项相对于一个同等替代方案的初始统计偏好(例如,在导致群体确定单个名称的过程中,个体系统地偏好一个名称而不是另一个名称)。一般来说,由于集体过程可以抑制和放大个体特征 (16, 17),因此回答这个问题也与实际应用相关。虽然大多数研究都集中于调查和解决人类与 LLM 之间一对一交互中的偏见 (1820),但较少关注这些偏见如何通过 LLM 智能体群体中的重复通信演变,最终在混合的人类-LLM 生态系统中演变 (15),即使单个 LLM 的安全性并不一定意味着多智能体系统的安全性 (21)。

最后,第三个问题是社会惯例的稳健性。最近的理论 (22) 和实证 (23) 结果表明,只要对抗性智能体达到阈值或“临界质量” (2426),少数对抗性智能体就可以对群体产生巨大的影响。调查 LLM 群体中惯例如何通过临界质量动态变化,将有助于预测并可能引导 AI 系统中有益规范的发展,同时减轻有害规范的风险 (27)。它还将为 AI 系统如何在新社会规范的塑造中发挥作用以应对全球挑战(如抗生素耐药性 (28) 和后碳转型 (29))方面提供有价值的模型。

在这里,我们解决了这三个关键问题——关于惯例的自发涌现、个体偏见的作用和临界质量动态——在 LLM 智能体的群体中。从最近对人类受试者进行的实验室实验中 (9, 23, 30),我们遵循使用命名惯例协调作为传统行为的一般模型的既定做法 (5, 7, 3033)。在这种设置中,智能体被赋予纯粹的本地激励,并且惯例可能(或可能不会)作为个体尝试与彼此进行本地协调的意外结果而出现。这使我们的论文与 LLM 多智能体系统上越来越多的文献区分开来,这些文献在解决复杂问题和世界模拟方面取得了相当大的进展,但主要关注的是目标导向的模拟,其中 LLM 要么完成预定义的群体级别任务,要么在结构化设置中近似人类行为 (15, 3436)。与使用 LLM 预测社会科学实验中人类反应的研究 (37) 或模拟人类社会的研究 (3840) 不同,我们的工作不将 LLM 视为人类参与者的代理,而是调查惯例如何在通信 AI 智能体的群体中由于它们的交互而有机地涌现 (6)。惯例的涌现是任何类型的 LLM 多智能体系统的基础要素 (14, 41),包括但不限于用于模拟人类社交网络的“计算机内”实验 (42)。在这里,我们采用复杂的系统视角 (43),而不是人类互动的高保真模拟 (44),从而最大限度地减少实验设计的复杂性,以提高结果解释的透明度。总的来说,我们的方法解决了 AI 研究人员最近提出的呼吁,即调查 LLM 智能体如何开发针对定义不明确的社会问题的共享解决方案——例如创建语言、规范和机构——以深入了解真正的合作 AI 系统的形成和稳定性 (15)。

实验设置

背景和框架

我们的方法建立在维特根斯坦的语言惯例的一般模型之上,其中重复的互动导致两个参与者之间的集体协议 (32)。这种方法的理论扩展认为,发生在社交网络上的纯粹本地互动可以导致全群体或“全局”协调行为 (1, 2, 6, 45)。我们研究的预测基于惯例形成的命名游戏模型,其中智能体旨在在成对互动中进行协调,积累过去游戏的记忆,然后使用这些记忆来“猜测”他们的后续合作伙伴将使用的词语 (7, 8)。大量的数值和分析工作表明,该模型如何捕捉不同设置中普遍共享的社会惯例的快速增长 (6)。命名游戏中涉及人类参与者的派生实验室实验为共享语言惯例的自发涌现提供了第一个经验证据 (9)。类似的方法通过在应用程序驱动的设置中采用更真实的输入数据证实了这些预测 (33, 46)。

命名游戏框架也已应用于研究规范变革和临界质量理论,该理论认为,一旦少数人的规模达到临界点或“临界质量”,坚定的少数人就可以推翻稳定的社会惯例。理论模型表明,临界质量在人口的 10% 到 40% 之间 (22, 47)。来自受控社会协调实验的经验证据(密切遵循上述方案)支持 25% 的阈值 (23)。然而,现实世界的观察结果揭示了更广泛的范围,一些研究提出 30% 到 40% 用于公司领导层中的性别惯例 (25, 48),另一些研究表明,小至 0.3% 的少数群体可以引发重大的语言和社会变革 (29, 4951)。

实验设置

模拟试验由 N 个交互智能体的群体组成。在每个时间步,随机选择两个智能体进行交互。交互规则通过提示 LLM 智能体来指定(参见下一节)。从多智能体的角度来看,每个智能体从有限大小 W 的池中输出一个惯例或“名称”,并将这些输出进行比较以确定协调。提示指定如果惯例匹配,则智能体的游戏分数会增加,如果不匹配,则会减少。在任何一种情况下,两个智能体的游戏分数都会改变相同的量。这实现了成对交互中的协调激励,而没有激励促进全局共识。此外,提示没有指定智能体是群体的一部分,也没有提供有关如何从群体中选择交互伙伴的任何细节。该提示为 LLM 智能体提供了一个“记忆”,用于存储有关他们参与的过去 H 次交互的详细信息,包括他们的共同玩家的惯例选择、他们自己的惯例选择、交互是否成功以及他们自己在这些 H 次交互中累积的分数。记忆初始化为空,因此在第一次交互中,输出是从可用名称池中选择的随机惯例。

最后,在关于规范变更和临界质量理论的实验中,我们将少量对抗性智能体(即“坚定的少数人”)引入到每个群体中,他们在每次交互中始终如一地推广一种新的替代方案,而不考虑他们的历史 (22, 23)。这些动态反映了常见的在线互动类型,其中社区成员使用聊天界面或消息传递技术直接与大型、通常匿名的群体互动,从而导致语言和行为惯例的采用,从而能够与其他参与者的期望进行有效协调 (9, 23, 52, 53)。在这里,我们使用四种不同的 LLM 模型模拟这些社交互动:Llama-2-70b-Chat、Llama-3-70B-Instruct、Llama-3.1-70B-Instruct 和 Claude-3.5-Sonnet(参见材料和方法)。

提示

游戏中的交互以一系列基于文本的移动的形式进行。在每次交互中,LLM 智能体会收到一个由系统提示和用户输入提示组成的文本提示。系统提示包含有关游戏的所有信息。用户输入要求智能体根据最近 H 次交互中的选择历史来预测玩家的下一个动作。这会将智能体定位为游戏的外部观察者,任务是预测即将到来的回合。实际上,这些决定决定了游戏的状态。智能体不会收到有关玩家身份或个性的信息,例如他们是否是理性参与者。因此,我们可以将智能体的建议解释为他们实际参与游戏。

系统提示(参见材料与方法)的设计使得智能体的输出遵循一致的格式,我们可以从中提取其决策。遵循先前关于 LLM 认知能力的研究 (54),我们提示智能体“逐步思考”并明确考虑游戏的历史。因此,提示鼓励智能体根据他们之前的经验做出决定,但没有提供关于如何在决策过程中使用它的指导。智能体被要求从名称池中选择一个名称,该名称池以从英文字母中采样的 W 个唯一字母的列表的形式呈现给他们。通过在每次交互时为每个玩家随机化呈现的字母列表来消除排序偏差。成功的交互会为参与智能体带来同等的回报,而无法协调会导致惩罚。在没有人类指导的情况下,LLM 在算术方面非常糟糕 (55)。为避免基于对游戏状态的误判而导致的决策错误,我们明确地向智能体提供他们在每一轮中获得的收益以及他们在记忆范围内的累积分数。最后,为确保 LLM 生成的响应确实由提示正确引导,而不仅仅是随机幻觉的结果 (56),我们实施了一种元提示策略来评估 LLM 对给定指令的理解。这种做法以前用于在博弈论框架中评估 LLM (57),包括向 LLM 提出一系列文本理解查询并评估其响应的准确性。经过我们测试的 LLM 表现出良好的理解能力(参见图 S1)。

结果

为了平衡实验时间(应该允许多次重复)与为智能体提供丰富的替代方案集和有意义的历史意识的参数,除非另有说明,否则我们将名称池大小设置为 W = 10,并将个体记忆长度设置为 H = 5,对于 N = 24 个智能体的群体。下面介绍的结果对于这些参数的变化仍然是稳健的(参见图 S2)。

自发涌现

图 1 显示,群体范围的语言惯例在所有模型中自发涌现。黑色虚线显示理论模型(有关描述,请参见补充文本)捕捉了 LLM 群体生成的动态。

初始步骤成功的概率较低,因为智能体的随机配对使得重复交互不太可能,从而阻止了根深蒂固的行为“邻域”的形成。但是,这些局部动态导致了向共识状态的无序到有序的转变,在该状态下,每个智能体系统地输出相同的名称,即全局惯例已经出现。人群收敛到许多可能的替代方案之一这一事实将这种转变描述为对称性破坏的案例 (8)。检查竞争替代方案的空间进一步支持了这种解释,如 图 1B 所示。在几个名称几乎同样受欢迎的初始阶段之后,一个单一的惯例迅速占据主导地位,将系统转变为“赢者通吃”的制度。各种模型的收敛速度相似:在所有情况下,共享的社会惯例都在人口回合 15 之前建立,除了我们考虑的最不先进的 LLM Llama-2-70b-Chat。

一个自然的问题是,关于全局惯例的共识是否也会 (i) 在更大的群体规模下发生,在这些规模下,重复互动的概率降低,并且 (ii) 当竞争性替代惯例的数量增加时,这可能会使即使是本地收敛也复杂化。图 S2 显示,多达 N = 200 个智能体的群体达成共识,并且对于大至 W = 26 的名称池,涌现出共享惯例,这证明了收敛过程的稳健性。较大的群体以相当的速度(以人口回合衡量)达成共识,而名称池大小 W 的影响更为细微,尽管并不明显。在下一节中,我们将检查可用惯例池的组成如何影响收敛。

惯例选择中的集体偏见

在确定社会惯例出现之后,自然会出现一个问题:这些惯例是什么?名称池中提供的单个拉丁字母作为全局惯例都同样有效,因此我们希望它们都具有相同的概率成为被接受的社会惯例,正如理论模型所支持的那样 (8)(另请参见补充文本)。但是,实验结果呈现出不同的情况(图 2A)。特定名称成为社会惯例的可能性既不统一也不确定。某些名称似乎比其他名称更有可能成为采用的惯例。这种模式适用于各种模型,尽管首选名称在模型之间有所不同。

两种假设可以解释观察到的行为。选择过程可能由于以下原因而不统一:(i) 内在模型(即个体、单智能体)偏差或 (ii) 提示功能,特别是名称池中名称呈现给智能体的顺序,如在不同的上下文中指出的那样 (58)。后一个假设可以被丢弃,因为如上所述,名称以随机顺序在列表中呈现给每个智能体以及每次交互。

在排除了名称呈现顺序作为因素后,我们可以专注于个体(即单智能体)偏见在塑造集体行为中的作用。理论模型支持个体偏见可能导致集体偏见的假设。当理论模型仅使用两个名称运行时,对特定名称的偏见会迅速导致人口层面对该名称的单方面收敛(参见图 S3)。收敛速度取决于偏见的程度。

为了在我们的实验中测试这种直觉,我们检查了各个智能体在其第一轮期间的选择偏好,此时它们没有先前的记忆。我们发现个体偏见是可能存在的。例如,当智能体可以从完整的英文字母表中选择任何字母时,群体会系统地收敛到字母“A”,因为即使没有先前的记忆,各个智能体也绝大多数更喜欢选择它而不是所有其他字母(参见图 S4)。但是,对于 图 1 的情况(其中名称池包含 10 个元素但不包含字母“A”),在没有先前记忆的情况下,对智能体名称选择频率进行的类似测试会产生混合结果。在这些条件下,个体 Llama-2-70b-Chat 和 Claude-3.5-Sonnet 智能体在此名称池中的各种惯例中都是无偏的(卡方检验,P = 0.100 和 0.410),而个体 Llama-3/3.1-70B-Instruct 智能体在其名称选择中表现出显着的统计偏差(参见图 S5)。在所有情况下,最终的共识分布都表明特定名称受到青睐作为共识选项,即使它们在初始步骤中看起来不太可能被选中(图 2A)。因此,即使在没有个体偏见的情况下,社会惯例和选择过程中的集体偏见也会涌现。

这些发现表明,集体偏见可能源于惯例形成过程本身,因为智能体暴露于具有不同名称组合和成功-失败序列的各种记忆状态。为了测试这一假设,我们专注于名称池大小 W = 2 的情况,因为随着可能名称空间的增加,跟踪偏见的潜在混淆因素变得不切实际。图 2B 表明,在所有模型中,尽管智能体最初是无偏的,但本地通信和协调会导致对特定惯例的集体偏见,我们将其称为“强惯例”(而不是其“弱”对应物)。这种发现在各种惯例组合中是一致的(参见图 S6)。

我们在 表 1 中检查了对集体偏见的微观贡献。[表