对于包括人类在内的许多动物来说,社交是具有高度奖赏性的。然而,人们对社交奖励是如何在大脑中编码并用于改变社交行为的了解甚少。 强化学习(RL)用于理解生物体如何调整其行为以最大化奖励。大多数RL模型的两个关键特征是反复和奖励预测。在多次试验中,将收到的奖励与预测的奖励进行比较,其中差异称为奖励预测误差(RPE),然后用于更新后续行动和奖励预测。 当第一次接触后代时,在几天内,初次生产和未交配的雌性小鼠表现出越来越快速和可靠地取回与巢穴分离的幼崽。
对于包括人类在内的许多动物来说,社交是具有高度奖赏性的。然而,人们对社交奖励是如何在大脑中编码并用于改变社交行为的了解甚少。
强化学习(RL)用于理解生物体如何调整其行为以最大化奖励。大多数RL模型的两个关键特征是反复和奖励预测。在多次试验中,将收到的奖励与预测的奖励进行比较,其中差异称为奖励预测误差(RPE),然后用于更新后续行动和奖励预测。
当第一次接触后代时,在几天内,初次生产和未交配的雌性小鼠表现出越来越快速和可靠地取回与巢穴分离的幼崽。
近日,美国冷泉港实验室Stephen D. Shea教授研究团队在Neuron上发表研究,测量了与巢穴分离的幼崽取回过程中,未交配的雌性小鼠行为出现时,中脑边缘多巴胺(DA)神经元活性的波动和DA神经元信号的变化。
在幼崽取回过程中
VTA DA神经元信号与表现呈负相关
研究人员发现,在几天的实践中,未生育的雌性往往会提高其幼崽取回的速度和效率(动机、运动和PRE)的母性行为经验的小鼠中,幼崽取回行为和每日平均VTA信号幅度。观察到荧光强度在幼崽接触时瞬时增加,并在雌鼠举起幼崽后达到峰值。在幼崽取回实验(P0-P5)中,VTA活动在P0时信号最大,随后几天,振幅急剧下降[Fig.1C,D]。
Figure 1 母体取回过程中VTA DA神经元的群体活动与幼崽取回行为呈负相关
幼崽取回行为
受DA神经元活动历史的影响
RPE是预期和收到的奖励之间的差异,随着奖励变得可预测,RPE降低。研究人员推测,对幼崽的VTA反应降低可能反映了幼崽接触的RPE。观察到,随着未生育小鼠积累了母性经验,幼崽取回时间和DA神经元活性稳步下降。然而,这两个数量都显示了相当大的试验间变异性[Fig.2D]。
比较了雌性动物带着幼崽返回巢穴时的平均速度与同一试验中的VTA荧光,并仅在1/16只小鼠中观察到显著的相关性[Fig.2E]。这种缺乏关系的情况表明,VTA DA神经元的活动仅仅是激发或激活幼崽取回运动行为。
Figure 2 根据VTA DA神经元信号,从一次试验到另一次试验更新幼崽取回行为
光遗传抑制VTA DA神经元活动
损害幼崽取回行为
接下来,研究人员检测了快速幼崽取回行为的学习是否需要VTA DA神经元活动。采用了闭环设计,在每次试验中,当雌性动物靠近幼崽时,触发光失活VTA神经元从而抑制VTA活性的峰值[Fig.3C-E]。结果发现表达stGtACR的小鼠在P0–P3阶段将幼崽带回巢所需的时间明显更长[Fig.3G]。尽管它们在4天的测试中表现出更快的行为趋势,但仍比表达GFP的小鼠慢[Fig.3I]。这是因为表达stGtACR的小鼠接近幼崽的潜伏期更长[Fig.3H,J]。
Figure 3 VTA DA神经元活性的光遗传学抑制导致幼崽取回行为较慢
VTA DA神经元的活动是增强
而不是执行幼崽取回行为所必需的
为了进一步阐明VTA DA神经元活性在母性行为RL中的作用,研究人员通过光遗传在交替试验中触发VTA DA神经细胞的光抑制[Fig.4A]。结果发现,与表达EGFP的对照组相比,表达stGtACR的小鼠最初将幼崽送回巢穴的速度明显较慢,并进行了更多的试验以实现相同的行为[Fig.4D]。这种差异主要是由于接近幼崽的延迟[Fig.4E]。说明VTA中多巴胺能神经元的轻度抑制削弱了它们在幼崽取回行为中的表现和动机。
比较有光抑制和无光抑制的试验,表达stGtACR的小鼠表现出相似的整体取回行为的潜伏期、接近潜伏期和触发区时间[Fig.4G-I]。因此,幼崽取回行为的受损反映在VTA失活对奖励历史的累积影响,而不是对行为的严重干扰。
Figure 4 幼崽接触时的VTA DA神经元活动逐渐增强幼崽取回能力
结 论
在本文中,观察和研究了重复刻板的亲代幼崽取回行为的出现,发现VTA的 DA神经元通过强化学习(RL)逐步完善它。中脑多巴胺神经元发出了社会奖励预测错误的信号,通过强化学习引导小鼠母性行为的出现。
copyright© 版权所有,未经许可不得复制、转载或镜像
京ICP证120392号 京公网安备110105007198 京ICP备10215607号-1 (京)网药械信息备字(2022)第00160号