脑海Yeah

当前位置: 网站首页 > 文化活动 > 脑海Yeah > 正文

大脑如何调控奖赏预测误差?

日期:2026-01-05 点击数:

前言 

大脑执行的一个基本计算功能是比较预期产生的期望和现实。有人提出,期望和现实之间的差异(称为预知误差,prediction errors)是感知和学习背后的驱动力[1-2]。虽然预知误差可以用简单的数学公式来定义,但复杂的神经元网络如何计算预知误差在很大程度上仍然是未知的。腹侧被盖区(ventral tegmental area, VTA)中多巴胺能神经元的活动模式相对一致,多巴胺反应长期以来在强化学习理论中一直被定量形式化为奖励预测误差(reward prediction error,RPE)。虽然多巴胺神经元活动的RPE特征已经被深入研究,但基于多巴胺神经元输入计算RPE的机制还不清楚。与此同时,VTA中的多巴胺能神经元能够接收不同神经元类型的输入,其中包括谷氨酸和氨基丁酸(GABA)神经元。最近,来自美国哈佛大学的Watabe-Uchida科研团队在《Neuron》杂志上发表 “Glutamate inputs send prediction error of reward, but not negative value of aversive stimuli,to dopamine neurons”论文,详细地探究了谷氨酸输入多巴胺能神经元在时间差异误差(temporal difference errors,TD errors,一种特殊的RPE形式,已被证明在机械学习中发挥着重要作用)中发挥的作用[3]。在本研究中,工作人员发现多巴胺谷氨酸输入多巴胺神经元的活动模式表现出TD errors的特征,但又不同于多巴胺神经元传递的信号。具体来说,谷氨酸输入被厌恶刺激激活,而相同区域的DA神经元被抑制。与此同时,阿片类药物可能通过m-富含阿片类受体的GABA输入通路改变了这种兴奋-抑制平衡。总的来说,VTA多巴胺神经元接收来自谷氨酸和GABA输入的冗余性和劳动分工,并提出了一种克服神经约束,在多巴胺神经元中形成双向RPE信号的策略。

1. 在多巴胺神经元中检测到谷氨酸释放

多巴胺神经元从大脑的不同区域接收兴奋性和抑制性的输入。为了检验兴奋性输入向多巴胺神经元传递的信息,研究人员在DAT-Cre小鼠的VTA中注射Cre依赖的腺相关病毒(AAV),使得谷氨酸传感器在多巴胺神经元中特异性表达。用光纤记录的方法同时记录腹侧纹状体(VS)中多巴胺以及VTA中的谷氨酸的表达。结果显示,VS中多巴胺释放和VTA中的谷氨酸释放显示出类似的活动模式,在给水奖励时被强烈激活(图1)。为了测试谷氨酸输入和多巴胺释放之间的因果关系,研究人员通过光遗传学特意激活了VTA的谷氨酸输入,结果显示VTA的谷氨酸神经元的激活不仅可以诱导VTA中谷氨酸释放的增多,还能诱发VS中多巴胺的释放。

图 1 VTA中谷氨酸传感器的信号特征

2. 在经典条件反射期间,谷氨酸输入将RPE发送到多巴胺神经元

为了探究谷氨酸输入在计算TD error中的作用,研究人员记录了小鼠在执行经典条件反射范式时VTA中谷氨酸输入的种群活动。研究人员首先研究了谷氨酸输入对奖赏预测线索的反应是否受到相关的奖赏值的调节(这是TD错误的特征之一)。他们发现,在对气味线索的反应中,谷氨酸信号受到奖励结果的相关概率的单调调节。对每只动物的线索反应与相关奖励概率进行线性回归结果显示谷氨酸信号和奖励概率之间的正相关线性关系(图2E)。虽然观察到的谷氨酸输入的活动模式与TD error一致,但这一观察结果并不能确定谷氨酸输入活动是反应TD error还是反应奖励值大小。因此,研究人员进而研究了对不同期望的水奖励的反应(图2C和2F)。结果显示谷氨酸输入中的奖赏反应受到期望的负调控,即预测的奖赏概率越高,谷氨酸信号就越小(图2G)。对水奖励的反应模式与实际奖励价值不匹配,因而这些结果更符合编码TD error的特征,即当奖励被期望时,奖励反应被抑制。

图 2 在经典条件反射中记录投射到VTA多巴胺神经元的谷氨酸输入

3. 谷氨酸输入活动在顺序条件反射中遵循TD error规则

图 3 在顺序条件反射中同时记录谷氨酸和多巴胺信号

TD error信号的一个标志是,除了奖励结果外,奖励期望(价值)的瞬间变化也会导致TD error。接下来,研究人员试图使用这个属性来测试多巴胺神经元谷氨酸输入释放编码的TD error(图3A)。小鼠首先在简单的经典条件反射中接受训练,将近端气味与奖励或无奖励联系起来(图3A,步骤1)。在学习了这种关联后,在给予近端气味更早的时间点给出一种新的气味——远端气味(图3A,步骤2)。三种远端气味偶联奖赏预测线索的概率不同,分别为100%、50%、0。训练完成后,同时监测多巴胺神经元的谷氨酸输入和VS中多巴胺的释放,结果显示远端气味线索处的多巴胺释放随着相关的奖励线索概率的增加而单调增加(图3B和3C),但多巴胺对近端奖赏预测线索(气味A)的反应幅度与该线索被远端线索预测的概率呈负相关(图3D和3E)。该范式中的多巴胺活动模式以及谷氨酸活动模式与TD学习模式中的TD error相一致。

4. 谷氨酸输入在遗漏预期结果时表现出抑制作用

遗漏一个预期的奖励会产生低于基线的多巴胺抑制,而在奖励遗漏时的抑制性“下降”是TD error的另一个特征。人们通常被认为,对奖赏遗漏的多巴胺能神经元的抑制反应仅仅是由GABA输入驱动的,如RMTg中的GABA神经元[4]。然而,研究人员发现,在经典条件反射过程中,当预期的奖励被忽略时,谷氨酸输入以及多巴胺的活动和释放显示出显著的抑制(图4A, B)。同样地,TD学习预测了顺序条件反射中奖励遗漏线索(当奖励线索被预期时没有结果的线索信号)的负面预测错误。与之相一致,当在顺序条件反射中出现奖励遗漏线索时,多巴胺的活动与谷氨酸输入均下降到基线以下(图4C-4E)。这些观察结果进一步表明,谷氨酸输入在多巴胺神经元的TD error中扮演着重要角色。

图 4 多巴胺神经元的谷氨酸输入、多巴胺胞体活动和多巴胺释放的奖励遗漏反应

5. 与多巴胺胞体活动和多巴胺释放相比,谷氨酸输入中的TD error呈正偏倚

由于在上述实验中研究人员观察到VTA中多巴胺神经元的谷氨酸输入和VS中多巴胺释放之间惊人的相似性,之后他们直接比较了它们的活动模式。同时记录的顺序条件反射中的信号,谷氨酸输入和多巴胺释放虽然均表现出TD error的特征,但时间模式略有不同。由于VTA中的谷氨酸传感器信号和VS中的多巴胺传感器信号对相同的光遗传刺激表现出不同的时间反应模式(图1G-1I),研究人员首先仅通过谷氨酸传感器信号估计了顺序条件反射下的多巴胺传感器信号,发现谷氨酸输入信号能够解释序列条件反射中54% ± 19%的方差(图5A-5E),并且残留信号中缺乏的TD error特征,这些结果都表明谷氨酸输入是多巴胺活动中编码TD error的一个重要部分。

图 5 在顺序条件反射中预估谷氨酸输入的多巴胺信号

图 6 谷氨酸输入到多巴胺神经元的活动与多巴体胞体活动和多巴胺释放的比较

那么在神经传递过程中,VTA多巴胺神经元的谷氨酸输入,VTA多巴胺神经元钙信号,和VS中多巴胺的释放的活动模式的有什么差异呢?(图6B)。虽然线索反应在所有步骤中都受到相关奖励值的单调调节,但研究人员注意到谷氨酸输入反应偏向于兴奋。接下来,研究人员通过用奖励概率对神经元反应进行线性拟合,估计了线索产生积极反应的最小相关奖励概率(“过零点”;(图6D,左图)。谷氨酸输入活性的零交叉点显著低于多巴胺胞体活性和多巴胺释放(图6D)。这表明,与多巴胺神经元的活动相比,谷氨酸输入对线索的反应是正偏置的。由于这些结果可能受到测试记录位点以及动物之间的差异性的影响,研究人员比较了VTA中外侧轴不同位置的谷氨酸和钙传感器信号以及单个动物的谷氨胺释放的差异,结果显示这与测试记录位点和动物之间的差异无关。

因此,谷氨酸输入的种群活动并不能完全解释多巴胺的活动,这表明多巴胺神经元并不纯粹地传递来自谷氨酸输入种群的信息,而是需要特定的输入,可能是额外的输入,来产生更多的负面反应。

6. 多巴胺神经元的谷氨酸输入缺乏对厌恶刺激的抑制反应

图 7 多巴胺神经元的谷氨酸输入,多巴胺胞体活动和多巴胺释放对 air puff 的反应

许多多巴胺神经元被厌恶刺激抑制,例如对小鼠眼睛吹气(air puff)[5]。研究人员证实了VTA中的多巴胺神经元活动和VS中的多巴胺释放均表现出对水奖励的激活和对air puff的抑制(图7A-7C),但谷氨酸输入在水奖励的激活在air puff阶段都被激活(图7A-7C)。多巴胺活动和谷氨酸输入之间的air puff反应的相反方向强烈表明需要额外的输入,以抵消谷氨酸输入的兴奋,并使得多巴胺神经元中在air puff产生抑制反应。在常见的模型中,谷氨酸和GABA输入共同调控多巴胺能神经元编码的TD error(图7E)。这种兴奋可能与GABA输入竞争,而GABA输入也被厌恶刺激激活(图7G)。考虑到这可能是谷氨酸传感器的灵敏度对结果的影响,研究人员用最新的谷氨酸传感器iGluSnFR3 v857-GPI(在体内具有更高的信噪比和更高的突触后定位),进一步证实了谷氨酸输入对线索和奖励的反应与RPE一致。此外,研究人员证实了谷氨酸输入被air puff激活。

7. 阿片类药物可能会将多巴胺对厌恶刺激的反应从抑制转变为兴奋

如果谷氨酸输入和GABA输入被厌恶性刺激所激活,从而相互竞争调控多巴胺反应,多巴胺对厌恶刺激的反应就可能依据动物的状态和情境从而灵活改变轻微调节兴奋和抑制输入(图7G)。那么外源性给予阿片类药物(常见和有效的镇痛药)对多巴胺释放和谷氨酸输入会产生什么样的影响(图8)呢?研究人员发现外源性给予丁丙诺啡显著减少了在air puff中VS多巴胺释放的抑制,甚至改变了一些动物对激活的反应(图8A和8B),但丁丙诺啡并没有明显改变谷氨酸输入反应(图8C和8D)。持续给药丁丙诺啡能够一直降低多巴胺抑制反应,但在谷氨酸输入中并没有发现这种变化(图8E),表明谷氨酸输入和其他输入之间存在竞争。通过这种方式,谷氨酸和其他输入中的厌恶刺激的兴奋似乎被不同地调节,以灵活地塑造多巴胺对厌恶刺激的反应。

图 8 在air puff中丁丙诺啡对多巴胺活性和谷氨酸输入的影响

总结与展望

总的来说,多巴胺神经元接收谷氨酸和GABA输入,并向下游区域发送奖赏和惩罚信息。与此同时,用谷氨酸传感器记录了多巴胺神经元的谷氨酸输入,发现谷氨酸输入向多巴胺神经元传递奖赏预测错误,而不是惩罚信息,这表明谷氨酸和GABA输入之间存在劳动分工。这项工作揭示了先前未知的RPE计算的突触机制:多巴胺反应是由谷氨酰胺能和GABA能输入之间依赖于效价的协同和竞争相互作用形成的,在对厌恶刺激的反应中竞争相互发挥作用。

参考文献:

[1]Shadmehr, R., Smith, M.A., and Krakauer, J.W. (2010). Error Correction, Sensory Prediction, and Adaptation in Motor Control. Annu. Rev. Neurosci. 33, 89–108.

[2]Von Helmholtz, H. (1867). Handbuch der physiologischen Optik (L. Voss).

[3]Amo, R., Uchida, N., & Watabe-Uchida, M. (2024). Glutamate inputs send prediction error of reward, but not negative value of aversive stimuli, to dopamine neurons. Neuron, 112(6), 1001–1019.e6.(本文原文)

[4]Li, H., Vento, P.J., Parrilla-Carrero, J., Pullmann, D., Chao, Y.S., Eid, M., and Jhou, T.C. (2019). Three rostromedial tegmental afferents drive triply dissociable aspects of punishment learning and aversive valence encoding. Neuron 104, 987–999.e4.

[5]Matsumoto, M., and Hikosaka, O. (2009). Two types of dopamine neuron distinctly convey positive and negative motivational signals. Nature 459, 837–841.


本文作者:胡荣峰组洪茂君


上一条:快乐消失术:慢性应激如何侵蚀我们享乐的动力

下一条:此去经年|朱庇特秘史