长期酒精暴露对纹状体计算产生性别依赖性损伤

[以下为正文内容]

价值导向的决策依赖于纹状体,慢性酒精(EtOH)暴露会改变纹状体的神经可塑性,但这种可塑性对决策过程中纹状体神经动态的影响尚不清楚。本研究利用动态概率反转学习任务,研究了 EtOH 对雄性和雌性大鼠奖励驱动决策和纹状体神经计算的长期影响。在经历长时间的戒断期后,暴露于 EtOH 的雄性大鼠表现出适应性和探索行为的缺陷,以及异常的结果驱动的价值更新,从而加剧了对所选行为的偏好。这些行为变化与背内侧纹状体(DMS)中改变的神经活动有关,其中 EtOH 增加了与结果相关的编码,减少了与选择相关的编码。相比之下,雌性大鼠表现出极小的行为变化,以及由 EtOH 引起的不同的神经活动改变,揭示了慢性 EtOH 对神经影响方面存在显著的性别差异。我们的研究结果强调了慢性 EtOH 暴露对适应性决策的影响,揭示了纹状体神经计算过程中的持久改变,这些改变是不同性别的认知缺陷的基础。

简介

基于价值的决策是一个基本的认知过程,它涉及评估不同行为的潜在结果,从而选择最有利的一个。这一过程对于适应性行为至关重要,并且严重依赖于纹状体中的神经计算,纹状体是大脑中编码各种与决策相关信号的关键区域,包括与选择、奖励和价值相关的信号(1 9)。

已知慢性酒精 (EtOH) 暴露会持久地破坏人类的学习和认知(10 13)和啮齿动物的学习和认知(14 16),并深刻地影响大脑,特别是在参与决策和奖励处理的区域,如皮质纹状体通路。先前的研究表明,EtOH 会改变纹状体细胞信号传导和皮质纹状体可塑性(17 20),尤其是在背内侧纹状体 (DMS)(18 20),DMS 是经济决策(4, 9, 21, 22)、奖励学习(1 3, 8, 23, 24)和目标导向行动计划(25, 26)的关键区域。然而,慢性酒精暴露如何影响奖励学习的特定决策过程,以及如何破坏这些决策过程的系统级纹状体动态,仍有待探索。

许多精神疾病,包括酒精使用障碍,对一种性别的影响不成比例,这突出了在研究中考虑性别差异的重要性(27)。研究表明,男性和女性表现出不同的饮酒模式和对酒精相关疾病的易感性(28),这可能是由神经生物学差异驱动的(29, 30)。此外,男性和女性在奖励学习中表现出不同的行为反应和动机水平(5, 31)。这些性别差异可能扩展到酒精对决策的影响以及潜在的神经机制。因此,重要的是要了解慢性酒精暴露如何以性别依赖的方式影响奖励学习信号的纹状体编码,因为这些神经变化可能导致决策的持续损伤。

为了解决这些问题,我们训练了经历过 EtOH 依赖期的雄性和雌性大鼠进行动态概率反转学习 (dynaPRL) 任务。在标准反转学习 (PRL) 任务中,动物会经历交替的模块,其中奖励概率在两个选项之间对称切换。因此,结果的不确定性(称为预期不确定性)(32, 33) 是固定的,并且不同奖励概率之间的转换在某种程度上是可以预测的,从而导致相对较低水平的意外不确定性(32, 34)。相比之下,dynaPRL 任务要求大鼠评估不同水平预期不确定性下的奖励概率,这对应于更高水平的意外不确定性。使用此任务,我们观察到 EtOH 引起了多个行为指标的变化,包括改变的探索-利用权衡和在更不确定的环境中的反转缺陷,这在雄性大鼠中比在雌性大鼠中更明显。使用强化学习 (RL) 框架,我们发现暴露于 EtOH 的雄性和雌性大鼠在获得奖励后都表现出增强的价值更新,但只有雄性大鼠在没有获得奖励后表现出特定的改变,这为观察到的缺陷提供了潜在的计算解释。此外,DMS 中的单单元记录显示,有 EtOH 病史的雄性大鼠的选择、状态值和策略的编码减少,同时结果和所选值的编码增强。值得注意的是,我们的观察结果显示,无论是否有 EtOH 病史,雌性大鼠的决策变量编码模式与雄性大鼠不同,并且 EtOH 病史对雌性大鼠的神经编码的改变方式与雄性大鼠不同,这突出了显著的性别特异性效应。总之,这些发现揭示了慢性 EtOH 暴露在长期戒断期间产生不良影响的行为和神经机制,突出了 EtOH 对基于价值的决策和与决策相关的纹状体神经活动的影响方面存在的显著性别差异。

结果

慢性 EtOH 暴露后的长期戒断会产生性别特异性的行为模式

为了研究慢性 EtOH 暴露是否会破坏急性戒断期(即 >1 周)后的决策,我们使用了一种经过充分验证的慢性间歇性 EtOH (CIE) 蒸汽程序,该程序会导致血液 EtOH 浓度 (BEC) 大于 150 mg/dl,从而模拟 EtOH 依赖性(图 1AOpens in image viewer) (14, 35)。首先,对大鼠进行标准 PRL 任务的训练,然后进行为期 4 周的 EtOH 蒸汽或空气暴露和戒断循环(每天 16 小时,每周 5 天;BEC 无性别差异 t(11) = −1.05, P = 0.32),并在组别分配中平衡 PRL 表现。戒断 10 至 15 天后,重新评估标准 PRL 任务的表现(图 S1A)。此任务要求限制饮水的大鼠通过在左右杠杆之间进行选择来获得一滴(33 μl)10% 蔗糖溶液,这些杠杆以 70% 或 10% 的概率提供奖励;左右杠杆的这些奖励概率在一个会话中重复切换(图 1BOpens in image viewer 和图 S1B)。与之前的研究一致(36, 37),在此标准 PRL 任务中,在比较 CIE 暴露前后受试者内部的表现时,我们没有观察到模块切换后反转学习的任何显著差异(图 S1,C 至 G),也没有观察到雄性或雌性大鼠的 EtOH 和空气对照之间的显著差异(图 S1,C 至 G)。为了进一步了解 CIE 暴露是否可能在此任务中引起行为变化,我们使用支持向量机 (SVM) 分析来解码来自高维数据集的组成员身份,该数据集由在 EtOH 大鼠及其空气对照的逆转前和逆转后阶段收集的 20 个行为指标组成(图 S2A)。我们发现训练有素的 SVM 模型无法在此 PRL 任务中识别高于偶然水平的组别标签或性别标签(图 S2B)。这些发现表明,大鼠未在标准 PRL 任务中表现出 EtOH 引起的显著表现变化。

图 1. 暴露于 EtOH 的大鼠在 dynaPRL 任务中表现出不同的行为模式。

(A) EtOH 蒸汽暴露期间雄性和雌性大鼠的血乙醇 (EtOH) 浓度 (BEC)。(B) dynaPRL 试验结构。奖励选择由答题器声音后跟蔗糖表示;未奖励选择由白噪声表示。P(r |c = L) 或 p(r |c = R) 是给定选择 (c) 是左侧 (L) 还是右侧 (R) 时,奖励 (r) 概率。(C) dynaPRL 任务的选择奖励概率。模块转换分为三种类型:低到高 (LH) 挑战、高到低 (HL) 挑战以及相同到相同(无差异,ND),表示为具有不同颜色、样式和粗细的线条。(D) 空气和 EtOH 暴露大鼠的示例选择行为。选择显示为红色(奖励)或灰色(未奖励)散列标记。移动平均值(五个试验窗口)估计选择右侧杠杆的概率,P(c = R)。(E) 超平面的示意图,该超平面将多维行为空间中的 EtOH 和空气会话分开,表示不同的模式。(F) SVM 多类分类器的混淆矩阵,该矩阵从 1000 次迭代中聚合,用于解码 n = 13 只 EtOH 大鼠(8 只雄性,5 只雌性)和 14 只空气对照(9 只雄性,5 只雌性)的组别和性别。对角线条目表示正确预测的概率;非对角线条目表示错误分类。*P < 0.05 且 **P < 0.01,蒙特卡罗显著性测试。(G) 将高维数据进行 UMAP 转换到 2D 空间。

在新窗口中打开

为了进一步探索慢性 EtOH 对决策的可能影响,我们接下来修改了任务以增加不确定性水平(38, 39)。我们引入了三模块设计,奖励概率在左右杠杆概率之间的对比度方面有所不同(80:10、60:30 和 45:45;图 1,B 和 COpens in image viewer]),从而将标准 PRL 任务转换为 dynaPRL 任务。此设计创建了具有不同水平预期不确定性的模块(32, 33),对应于预测行动结果概率的不确定性,而模块之间不可预测的转换引入了意外不确定性(32, 34)(图 1COpens in image viewer)。总之,dynaPRL 任务中的这些不确定性可能会给大鼠带来更大的认知挑战,从而可能比传统的 PRL 任务提供更敏感的 EtOH 引起的认知变化测量,因为它对认知灵活性提出了额外的要求。PRL 和 dynaPRL 之间的行为比较支持了这一结论(图 S1,G 至 L)。在 dynaPRL 任务中,空气组和 EtOH 组中的个体大鼠都调整了其选择行为以响应模块转换(图 1DOpens in image viewer)。将 SVM 模型应用于用于标准 PRL 任务分析的相同行为特征,我们发现该模型可以从 dynaPRL 行为数据中正确识别组别(空气与 EtOH)和性别标签,其预测精度 (63.29%) 显著高于偶然水平 (25%;P < 0.001)。经过训练的 SVM 解码器几乎从未(<0.001% 概率)对男性和女性受试者进行错误分类(图 1,E 和 FOpens in image viewer,以及图 S2,C 至 G)。此外,对于雄性大鼠而非雌性大鼠,EtOH 治疗与空气的解码准确率明显高于偶然水平(图 1FOpens in image viewer)。使用统一流形逼近投影 (UMAP),我们发现雄性 EtOH 和空气大鼠的数据在二维 (2D) 低维空间中明显分离,其准确度 (~75%) 类似于 SVM 对组成员身份的解码(图 1GOpens in image viewer)。

总之,这些结果表明,在最后一次 EtOH 暴露后数周(>10 周),通过对更具挑战性的 dynaPRL 决策任务期间的高维行为指标进行多元分析,可以在雄性大鼠中检测到先前慢性 EtOH 暴露的影响。

慢性 EtOH 暴露减缓了雄性的适应性学习并减少了探索

SVM 分析表明,在 dynaPRL 任务中,暴露于 EtOH 的雄性大鼠的行为与对照组大鼠不同。为了了解这种差异的基础,我们检查了 EtOH 和空气大鼠如何在模块切换后调整其选择行为以响应奖励概率的变化。与每个模块相关的不确定性可以通过熵来量化,熵衡量结果的不可预测性:对于 45-45 模块(模块 1),熵为 1.04 比特;对于 60-30 模块(模块 2),熵为 0.96 比特;对于 80-10 模块(模块 3),熵为 0.59 比特。这些模块之间的转换引入了意外不确定性(32, 34),我们根据切换前后相对不确定性水平对其进行分类:例如,从较低到较高预期不确定性的转换被标记为低-高,从较高到较低的转换被标记为高-低(图 1COpens in image viewer)。

在模块切换期间,我们分析了选择在转换前有利的行动的可能性。我们发现,所有性别和治疗组的大鼠都表现出基于模块转换类型的独特适应性学习反应(图 S4,A 和 E),表明 dynaPRL 任务中的意外不确定性会影响选择行为。在检查 EtOH 对不同类型意外不确定性下学习表现的影响时,我们发现,在低-高转换期间(图 2AOpens in image viewer),暴露于 EtOH 的雄性大鼠在切换到新模块后的初始试验中,更有可能坚持他们之前模块中的首选选择。双向混合效应方差分析 (ANOVA) 支持了这一点,该分析显示雄性治疗组和试验之间存在显著的交互作用 (F(16,255) = 1.925, P = 0.016;图 2BOpens in image viewer)。为了量化雄性大鼠的适应性学习表现,我们对模块转换后的前 12 次试验中选择先前首选行为的概率进行单指数衰减模型拟合(图 2COpens in image viewer)。虽然在模块切换前渐近值 (a) 或模块切换后学习新的行动结果意外事件的大小的变化 (d) 方面没有差异(图 2,D 和 EOpens in image viewer),但我们观察到,与同性对照组相比,EtOH 雄性的适应率 (λ) 较低 (t(15) = −2.36, P = 0.016;图 2FOpens in image viewer)。鉴于 λ 的倒数 (τ = 1/λ) 对应于大鼠学习新模块的时间常数,这表明 EtOH 大鼠需要更多经验才能适应高度模糊环境中的新意外事件 (t(15) = 2.3, P = 0.036;图 2GOpens in image viewer 和图 S4A)。值得注意的是,在高到低不确定性(高-低)的模块转换、模块转换前后不确定性水平相同(相同)或所有试验类型组合时,未观察到这些影响(图 S3,B 至 D,以及 S4A)。相比之下,我们发现,雌性 EtOH 和空气大鼠在所有转换类型中都表现出相同的表现(图 S3,G 至 J,以及 S4E)。因此,与 SVM 分析一致,EtOH 对适应性学习动态的影响仅存在于雄性大鼠中,并且仅当他们面临向高度不确定性的突然转换时。为了检查预计大鼠已获得新意外事件的模块中稍后时间的选择行为,我们专注于自模块切换后 12 次试验后的行为,并评估选择概率偏离选择所产生的局部奖励率有多大(“匹配行为”)(40)。雄性(但不是雌性)EtOH 大鼠比同性对照大鼠更紧密地将其选择与局部奖励率对齐(图 S5),再次支持了此任务中选择行为的性别差异。

图 2. 慢性 EtOH 暴露改变了雄性大鼠在模糊环境中的选择行为。

(A) 低到高不确定性转换中模块切换的图示。(B) 在低到高转换中选择切换前首选杠杆的概率。粗线代表组平均值;细线代表单个大鼠。虚线垂直线标记模块切换 (t = 0)。(C) 单指数衰减模型估计学习新的行动结果意外事件的表现。粗线显示平均模型拟合;点表示来自 (B) 的真实平均数据。细线表示个体大鼠模型拟合。(DG) 来自 (C) 的估计参数。箱形图描绘了每组参数值的中位数、第 25 个和第 75 个百分位数。箱形图旁边的点是来自个体大鼠的值。面板右侧的云图描绘了数据分布。云图上的点是参数值的平均值。P < 0.05, t 检验。(B) 至 (G) 的 n = 9 只空气大鼠,8 只 CIE 大鼠。(H) 低-高转换期间的停留概率。(I) 在低-高转换期间,在先前试验中给定奖励(水滴)或无奖励 (X) 的停留概率。散点图旁边的点表示数据平均值。SE 是垂直线,但在图上太小而无法可视化。水平虚线表示空气组的平均值。(J) 在低-高转换期间,给定奖励的停留概率(赢家停留,WS)和给定无奖励的转移概率(输家转移,LS)之间的差异 (Δ)。P < 0.05 和 **P < 0.001,双向混合效应方差分析,然后是 Bonferroni 校正的事后检验,用于 (A) 和 (I)。P < 0.05 且 **P < 0.01,Wilcoxon 秩和检验用于 (H) 和 (J)。(H) 至 (J) 的 n = 来自 9 只空气大鼠的 241 个会话,来自 8 只 EtOH 大鼠的 229 个会话。

展开以获取更多信息

在新窗口中打开

为了了解这些差异,我们研究了 EtOH 是否可能以不同方式影响雄性和雌性大鼠的选择策略。我们分析了两个阶段的停留概率:早期适应性学习阶段(包括转换到新模块后的试验 2 至 7)和当前模块的后期表现阶段(跨越模块切换前的最后 6 次试验)。我们发现,雄性 EtOH 大鼠更有可能在连续两次试验中重复相同的选择,尤其是在切换后的早期阶段 (z(464) = −2.36, P = 0.018;图 2HOpens in image viewer),但大鼠适应意外事件变化后的后期阶段较少,如停留概率的测量以及赢家停留和输家转移概率之间的差异所示(图 2,H 至 JOpens in image viewer,以及图 S6,A 至 H)。这种行为对奖励的接收或省略很敏感;在低-高转换期间,EtOH 大鼠在省略奖励后表现出更高的停留概率,但在收到奖励后则没有(组的主要影响,F(1, 463) = 10.625, P = 0.001;结果 × 组交互作用,F(1, 463) = 4.5, P = 0.035;图 2IOpens in image viewer),从而导致更大的赢家停留行为趋势和更小的输家转移行为趋势 (z(464) = −2.81, P = 0.005;图 2JOpens in image viewer)。相比之下,暴露于 EtOH 的雌性大鼠未显示赢家停留-输家转移行为策略的改变(图 S6,I 至 P)。值得注意的是,与未接受 EtOH 的雌性大鼠相比,未接受 EtOH 的雄性大鼠也具有更高的停留概率和更大的赢家停留行为趋势(图 S2F)。

总的来说,这些结果表明,慢性 EtOH 暴露显著影响雄性大鼠的结果驱动行动策略,有利于从切换到停留的转变并增强匹配行为,即更大的利用趋势和更小的探索趋势,从而导致在动态决策任务期间性别依赖性认知灵活性的降低。

慢性 EtOH 暴露改变了雄性大鼠的结果特异性价值更新

为了更好地了解 EtOH 暴露对决策的观察到的影响背后的奖励学习过程,我们将几个 RL 模型拟合到逐次试验选择和奖励数据。我们发现,具有不同学习率的 Q-学习模型(模型 2,Q-DFLr)的表现优于所有其他候选模型(图 S7A)。Q-DFLr 具有四个不同的参数,用于控制价值函数的更新:α+ 和 α− 分别用于在结果为奖励或无奖励时更新所选行动价值的速率,θ+ 和 θ− 用于以结果依赖的方式降低未选择行动的价值的速率(图 3AOpens in image viewer)。为了评估 EtOH 组和空气组在这些 RL 参数之间的组别水平差异,我们构建了一个分层模型,其中每只大鼠的个体参数分布由组别水平的超参数确定。这些超参数包括每个参数分布的平均值、每个参数的空气组和 EtOH 组之间的平均差异 (δ) 以及每个参数分布的方差。这些超参数的后验密度通过使用 Hamiltonian 马尔可夫链蒙特卡罗 (HMC) 方法进行采样来估计。我们观察到雄性和雌性大鼠的正反馈介导的学习率 α+ 的组别差异参数 δ 的后验分布向右移动(图 3BOpens in image viewer)。使用定向贝叶斯因子 (dBF) 评估这种移动的强度,我们发现,在 EtOH 预暴露与同性别对照相比之后,奖励学习率在性别之间发生了相对相似的变化,其中 α+ 大约有六倍的可能性在雄性中增加而不是减少,在雌性中有五倍的可能性增加而不是减少(dBF = 6.1(雄性)和 5.5(雌性);图 3BOpens in image viewer)。值得注意的是,未奖励的学习率 α− 在 EtOH 预暴露后仅在雌性中更有可能增加(dBF = 2.18;图 S6B),而在雄性中则不然(dBF < 1;图 S6B)。此外,我们发现,在雄性中,贴现参数 θ− 表现出显著的向右移动,其中 EtOH 预暴露后增加的可能性比减少的可能性大约高八倍(dBF = 8.35;图 3COpens in image viewer)。相比之下,在雌性中,EtOH 暴露后 θ− 增加的可能性要低得多(dBF = 1.54;图 3COpens in image viewer)。对于两性的两组之间,所有其他参数都仅显示出很小的差异(所有 dBF < 1;图 S7B)。

图 3. EtOH 暴露增强了正反馈介导的学习率和负反馈介导的遗忘率。

(A) 最佳拟合 RL 代理 Q-DFLr 的价值更新过程示意图。在此示例中,代理在接收到正反馈(奖励,r = 1)或负反馈(无奖励,r = 0)后,根据奖励预测误差 (RPE) 更新所选的 Q(L) 和未选择的 Q(R) 行动价值。所选价值以学习率(奖励为 α+,无奖励为 α−)更新,而未选择价值以遗忘率(奖励为 θ+,无奖励为 θ−)衰减。更新后的价值通过 softmax 函数指导选择。(BC) 在组别水平的超参数中,在正反馈介导的学习率 (α+)(在 (B) 中)和负反馈介导的遗忘率 (θ−)(在 (C) 中)中,使用 Hamiltonian 马尔可夫链蒙特卡罗 (HMC) 采样得出的 EtOH 暴露的雄性 (♂) 和雌性 (♀) 大鼠与空气暴露大鼠之间的组别差异 δ 的后验密度。向右箭头表示 EtOH 中的参数值高于空气,而向左箭头表示参数值较低。底部水平线表示 80% 和 95% 的最高密度区间 (HDI)。dBF,定向贝叶斯因子。后验密度从 1000 次蒙特卡罗采样中聚合。(D) 低-高转换中最初首选杠杆的选择概率。左侧面板中的数据是经验性的(从 图 1GOpens in image viewer 重新生成(对于男性),图 S4G(对于女性));中间和右侧面板描绘了模拟数据,这些数据分别使用来自 Q-DFLr 和 Q 模型的最佳拟合参数生成。每条线表示 20 次模拟的平均值。

展开以获取更多信息

在新窗口中打开

然后,我们使用最佳拟合参数来模拟实验中使用的原始模块结构中的选择行为,并分析了每种模块转换类型的坚持概率。我们发现,当从低不确定性模块转换到高不确定性模块时,对于雄性(但不是雌性)大鼠,模拟数据部分概括了在来自雄性(但不是雌性)大鼠的经验数据中观察到的 EtOH 引起的适应性学习缺陷,但对于其他类型的模块转换则不然(图 3DOpens in image viewer 和图 S7C)。总的来说,这些数据表明,慢性 EtOH 暴露相对于雌性优先改变雄性的奖励学习,方法是强烈增强基于省略的对未选择选项的遗忘,以及增强基于结果的对所选行为的更新,这些共同偏向于行动选择以支持先前加强的选择。这些结果为我们观察到的选择行为中的性别依赖性变化提供了算法解释。

EtOH 暴露对与行动和结果相关的 DMS 活动的性别依赖性影响

我们的行为分析和 RL 模型拟合表明,雄性和雌性 EtOH 大鼠表现出不同的结果依赖性价值更新。这表明,EtOH 可能会以不同方式改变与行动和结果信号相关的神经过程。因此,我们试图检查 dynaPRL 任务中 EtOH 对 DMS 神经动态的影响。我们分别从雄性 EtOH 和空气对照组大鼠的 DMS 中记录了 504 个和 247 个单细胞,并分别从雌性 EtOH 和空气对照组大鼠中记录了 354 个和 347 个单细胞(图 S8,A 至 C)。对于绝大多数记录的纹状体神经元,它们的放电率低于 18 Hz(雄性为 92%,雌性为 96%)(图 S8,D 和 E)。所有神经元都包含在以下分析中(参见材料和方法)。

使用多重线性回归模型,我们检查了整个试验过程中不同时期的神经活动如何受到动物行动、