当您在拉美西斯二世金字塔内腔中陷入3000年历史的陷阱中时,您需要快速发现逃逸机制,然后才能通过尖峰的下降上限立即刺穿。 疯狂地飞来飞去,随机推砖块,希望能滑进来,将手伸过石棺上的雕刻,将金面具推回底座上-天花板突然停止了。
您冻结,喘气,然后思考: 我这样做了吗?
我们都去过那里。 也许更常见的是,您的全新,荒谬的超规格微波炉上的纽扣方阵随机晃动,突然出现。 无论是救生还是微波,要知道X导致了Y,您的大脑必须同时解决两个问题:
代理商问题:是我吗?
信用分配问题:在我刚才所做的所有事情中,哪一项导致Y?
解决这两个问题是一项艰巨的挑战。 我们采取了许多行动,并取得了许多成果。 但是,我们周围一直在发生着比我们造成的更多的事情。 因此,我们的大脑需要从这恒定的事物流中分离出关键的结果Y。然后,尽管有关该事物的感官信息只是在可能发生的动作之后的某个时间出现,我们的大脑仍需要弄清楚是否是导致它的原因。造成了它。 这很可能全部取决于瑞士陆军的大脑理论刀:多巴胺。

对于神经元如何分配代理并在应归还的地方给予信用,我们有一个详细的假设。 它基于两个大想法。 首先,我们的大脑为世界如何运转建立了模型,并且不断对即将发生的事情做出预测。 当这些预测错误时,这将是令人惊讶的-导致意外的事件因此与我们周围持续不断的预测事件隔离开来。
其次,我们的大脑具有我们刚刚执行的动作的踪迹,当意外事件发生时,可以将其链接到最新动作的踪迹记忆。 然后,一旦链接,我们就可以重复操作并测试是否获得相同的结果。 如果这样做,那就瞧瞧! 因果关系的证据。
输入我们的老朋友多巴胺。 现在,从表面上看,多巴胺似乎是大脑解决将动作X的因果关系分配给结果Y的问题的最糟糕的方法。多巴胺立即大量释放,并在大脑中的许多地方释放。 如果您想让大脑仅突出一组神经元之间的特定连接(例如,仅针对动作X和结果Y的神经元之间的连接)的方法,那么这似乎是效率极低的方法。
但实际上,这非常聪明。 多巴胺是广播信号。 快速而同时地,它告诉大脑的巨大区域,“真正有趣的事情发生在大脑外部。 你们中谁将负责处理此事?”
它播放的内容令人惊讶。 惊奇是大脑对接下来会发生什么的预测中的错误。 我们有大量证据表明,多巴胺神经元广播有关奖励预测的错误。 当您的大脑预测几乎没有任何回报会发生,然后一个完全陌生的人给您一个甜甜圈时,您的多巴胺神经元就会短暂爆发。 他们向大脑的其他部分发出信号,表示出乎意外的好消息发生了。 他们说:“嘿,你们中的任何一个使这种甜甜圈的事情都发生了,再做一次!”
但是预测错误不仅是为了回报。 我们也知道,多巴胺神经元会在预测不良结果和您要学会避免的事情时发出错误信号,例如不按将蛇掉进浴室的按钮。 而且,它们指示您在估计自较早事件以来已经过去了多少时间的错误。 并且它们表明您打算演唱的歌曲与实际演唱的歌曲之间存在错误(是的,您的中脑有音乐评论家,您不知道吗?)。
世界上不同的错误导致多巴胺短暂爆发的所有这些方式,都可以通过多巴胺神经元发出惊喜信号的单一想法来很好地解释。 而且,至关重要的是,短暂的多巴胺爆发总是在发生令人惊讶的事件Y之后非常快地发生。此爆发带有当前发生的令人惊讶事件发生的时间戳。

因此,您的大脑已经发现了世界上发生的一件很酷的新事物,而多巴胺正在将其传播到大脑的其他部位。 现在,您的大脑需要发现您的任何动作是否导致该结果,然后通过加强它们之间以及仅它们之间的联系来将结果粘贴到该动作上。
为此,您的大脑需要找到在结果表示之前发生的动作的表示。 毕竟,因果关系似乎只有一个方向。 在灯光亮起之后,您做的特殊的在一只鸡腿上跳动的同时跳动的鸡舞蹈似乎不太可能使灯光亮起。 相反,可能是您进入房间时轻弹了电灯开关(显然是用没有鸡的手)。
多巴胺在大脑中的短暂传播本质上是在寻找最近发生的一系列动作。 当神经元的电脉冲沿其轴突电缆向下发射以将其信息传递到其所有目标神经元时,它将触发神经元内部的持久过程,在此过程中,各种分子(尤其是钙)的浓度缓慢变化。 此外,在与该神经元的任何传入连接处的活动还留下了该连接处的钙痕迹,将该输入标记为对使神经元活跃可能具有重要意义。
现在,多巴胺在两个神经元之间的连接处出现。 假设一个神经元推动了引起某种作用的动作,而另一个神经元对该神经元的输入则说:“我在这里。”然后,这两个神经元之间的连接将对信息进行编码:“在我在这里时执行此动作。”如果“我在这里”神经元刚刚触发了“执行此操作”神经元,那么该动作神经元内部就会有钙的痕迹-一个表明该连接处于活动状态,另一个表明该动作神经元被触发。 多巴胺仅在这些痕迹存在时才允许这两个神经元之间的连接增强强度。 因此,当且仅当两个神经元在正确的时间处于活动状态时,“当我在这里时执行此操作”的想法才被加强。
更为显着的是,大脑似乎将因果关系建立在规则中,以决定神经元之间每个个体之间的连接应如何变化。 从神经元A到神经元B的连接似乎保持了神经元A和神经元B触发的顺序。 如果神经元A在神经元B之前发射,那么从逻辑上讲它可能导致神经元B发射。 该连接已标记为可能会增加强度。
但是,如果神经元A在神经元B之后不久触发,那么它不可能导致神经元B触发。 该连接被标记为强度可能降低,因为(如果有的话)A的发射会干扰神经元B。如果神经元A在神经元B之前或之后长时间触发,则强度不会改变。 确实,改变连接强度的规则似乎是专门为学习因果关系而建立的。
因此,大脑可以解决信用分配问题。 它通过广播带有时间戳的信号来发现结果X,而该结果信号Y只是在大脑外部发生了一些意外的信号,而该广播信号仅在发现痕迹表明某个动作神经元已经在正确的位置被激活时才起作用。 现在,当您再次处于该位置时,动作X的神经元更有可能处于活动状态–您更有可能再次执行动作X。 因此,我们发现X是否确实导致Y。并且我们有一个更好的模型来预测世界。

代理问题现在很容易解决。 大脑怎么知道不是你? 当多巴胺突触信号出现并且在动作神经元中没有任何活动的痕迹时。 没有活动的痕迹意味着“我没有造成这种情况”。
(好吧,所以在偶然的情况下,动作神经元偶然会在结果之前处于活动状态但没有引起结果。这就是为什么需要重复执行动作的原因:如果故意重复执行动作X而不导致结果Y,那么就没有证据表明它们之间存在联系。)

弄清大脑如何学习因果关系既是现代神经科学的先河,也是潜艇的研究课题。 因果关系理论的大部分内容被淹没在整个文献中,但很少这样命名。 这意味着这是一个探索的成熟领域,潜力无限,充满了未解决的问题。 让我们以一个未解决的问题为例:将来想使用这种新发现的信息怎么办?
因果关系的学习基于这样的思想,即我们在大脑中围绕着世界的预测模型。 但是,如果我们这样做了,那么我们很可能也将围绕如何改变世界的逆模型进行研究。 我们需要能够说“我想要结果Y”,并使用逆模型来查找获得结果的“动作X”。
这意味着我们需要更新两个模型:预测模型(“世界应该处于这种状态”)和逆模型(“要获得我想要的世界,我需要做X”)。 多巴胺似乎可以教授两种模型。 但是哪里? 并且它们是否同时更新? 我们不知道 大脑对世界建立了多少种不同的模型,它们如何相互作用以及如何教它们,这些都是没有答案的深刻问题。

通过尝试和错误学习因果关系在物种,动物和鸟类中都可以看到,如果我做X,就将Y遵循的事件序列刻苦地编织在一起。某些物种可以通过模仿来学习因果关系。 蓝雀可以通过观察其他蓝雀来学习打开奶瓶顶部。 (严重的是,不要生气蓝雀。)
但是人类的优势是语言。 语言意味着我们不再需要对本地的个人事件链进行艰苦的观察。 我们可以用语言解释因果关系,并以抽象形式传递它们:书籍,杂志,电视纪录片,以及有关重建V8引擎的300部YouTube视频。 我们可以写下我们的观察结果,并在X和Y之间的链缺失的地方留下空白(我们称之为“科学”)。 我们可以共享信息,并在更大样本中发现因果关系,而不是一个人一生所希望学习的因果关系。
我们了解到灭绝或气候变化的因果关系这一事实,就证明了我们有能力学习我们行为所带来的局部和个人以外的影响。 独特的是,我们的大脑不仅可以学习“我造成了这个”,还可以学习“我们造成了这个”。