PNAS：大脑如何整合多感官模态信息，进行因果推断？

神经现实

2021-10-01 21:32神经现实官方账号

导语/ Introduction

大脑作为复杂智能系统，因果推断能力是其智能的主要表现之一，但怎样在微观神经元层面解释大脑因果推断的内在机制，仍是尚未解决的难题。

例如，当我们在静止的车厢里看到旁边的列车开动，会产生自己在动的错觉。这是因为视觉系统“看到”了运动，但前庭信号却显示我们是静止的。面对不同来源的信号，大脑如何进行整合并作出合理推断？电生理记录显示，大脑神经元会编码前庭运动和视觉运动线索的组合。今年8月份发表在PNAS上的一项最新研究通过训练神经网络模型证明，这两种类型神经元之间的权衡决定了视觉线索和前庭线索应该整合还是分离，从而帮助大脑进行因果推断。

大脑如何进行因果推断？

一只讨厌的蚊子持续烦扰着你，你准备拍打它。你看到它在你的手臂上盘旋，感觉到痒的地方却在旁边（图1A）。这时应该打哪里？数学上的最优解决方案是，对视觉和触觉指示的位置取平均，并对更可靠、往往误差更小的信号给予更大加权。大量文献表明，对于大多数模态匹配和知觉任务，人类行为符合这种感官整合的最佳处理逻辑[1-4]。

然而，如果视觉和触觉所指示的位置非常不同，那么痒感可能是由于另一个原因引起的，如旧蚊虫的叮咬（图1B）。在这种情况下，对不同感觉信号做区隔，比如忽略触觉，在视觉指示的位置拍打就更有意义。实施这一决定需要进行“因果推断”（causal inference），即推断两个感觉信号是来自一个共同来源还是独立的来源。人类[5,6]和猴子[7,8]的行为就像在做因果推断一样，他们不会整合不太可能来自同一来源的信号。因此一个具有挑战性的问题是，感觉线索整合和因果推断是如何在大脑中实现的？

图1. 多感官整合和因果推断。

(A)当推断出一个共同原因时，视觉和触觉的感觉信号被整合；(B)当推断出单独的来源时，使用分离的视觉信号。(C)在跨模态下指向方向一致的神经元具有相似的调谐；(D)异向神经元的首选方向在不同模态下有所不同。这两种类型的神经元对(E)自我运动和(F)世界运动的估计，以及(G)因果推断判断都有贡献，但程度不同。(H)在贝叶斯估计中，整合的和分离的估计被结合起来，其权重等于每种因果情况的概率。

多感官信号怎么整合？

今年8月PNAS发表的一篇论文中，Rideaux等人[9]展示了不同类型的神经元之间的相互作用是如何完成最佳整合和因果推断判断的。在多感官感知下，他们模拟了一个一直令人困惑但也经过了充分研究的案例：视觉和自我运动的前庭信号。这些信号在包括背侧内颞上脑区（MSTd）和顶内沟腹侧区（VIP）的大脑区域汇聚。这些区域的神经元通常根据方向进行调整，即当感官线索指示某个特定方向时，相应神经元激发次数最多，信号方向与其首选方向差异越大，激发则越少。

许多从两种模态接收输入*的神经元都是同调神经元（congruent neurons）：它们对这两种模态有相似的调谐（图1C）。因此，同调神经元似乎注定要进行多感官整合（multisensory integration）[10,11]。但奇怪的是，MSTd和VIP中的许多其它神经元是异向神经元（图1D），它们对指示相反方向的视觉和前庭信息进行调谐，例如，视觉刺激发出的向右运动和前庭的向左运动信号[10,12]。当感觉信号来自不同来源时，异向神经元似乎同样有非常适合的方式进行检测。如此一来，同调和异向神经元的协作就可能使大脑进行因果推断[10,13]。

*译者注

大脑中某些神经细胞会对视觉、听觉和躯体感觉刺激同时起反应。一般有50%的细胞是单通道的，但是有超过20%的细胞是双通道或三通道的，可以接受多感官模态信息输入。

但直接检验这一假设需要同时记录MSTd和VIP中的同调和异向神经元，以及它们所投射的神经元，这是一项几乎不可能的任务。不过，人工神经网络的构建可以轻松检测神经元在不同脑域的互联行为。

- Stuart McReath -

人工神经网络模拟

Rideaux等人[9]对这个问题采取了一个特别聪明的方法。他们没有构建一个由手工调谐的同调和异向神经元层构成的人工神经网络，而是训练了一个无约束（unconstrained）的人工神经网络，来执行因果推断判断及对自我和世界的运动估计，然后检查了多感官神经元的调谐和连接。这个多层前馈网络有两组输入：视觉和前庭。视觉输入是自然图像的短序列，以不同速度向四个方向变换（左-右、上-下、朝向-远离和视线旋转）。前庭输入来自沿着这四个轴调整的单位的速度，并略微受到噪声的干扰。

对于每个运动方向，神经网络输出的神经元分别确定运动速度（训练为匹配前庭和视觉输入速度的平均值；图1E）、世界运动速度（训练为匹配两个输入速度之差；图1F），并进行共同来源判断（训练为匹配两个输入速度之差是大是小的二元分类；图1G）。值得注意的是，对世界运动估计任务的多感官整合与其它领域不同，后者的整合通常与区隔形成对立，例如仅依赖一种模态（比较图1A和B）。因此后续会带来一个有趣的问题，即该网络将如何推广到对空间、时间或其它特征的多感官知觉的模拟中。

该论文的主要贡献是，经过成功训练后，该网络发展出了与猕猴MSTd和VIP中同调和异向相同特征的神经元。更具体而言，在网络的“MSTd”层中，神经元对指示方向有清晰的调谐（方向沿着左-右或前-后轴速度计算），大多数神经元要么具有一致的视觉和前庭调谐，要么对这两种模态表现出相反运动方向的调谐。这两种类型的神经元都为因果推断判断提供了重要的输入，证实了最初的假设，即同调和异向神经元之间的权衡对于推断两个信号是否来自同一来源至关重要。

至于该网络的运动速度感知，同调细胞为自我运动估计提供了更强的输入，异向细胞则为世界运动估计提供了更强的输入。这两种类型的神经元也都能对另一种知觉估计做出贡献，只不过程度较小。先前带有手工调谐的同调和异向神经元的计算模型已经证明，这种网络能够执行因果推断[13,14]，不过，没这些特性的人工神经网络亦如此[15]。与这些自上而下的方法相反，Rideaux等人[9]表明，同时进行知觉和因果推断判断的要求促使了同调和异向神经元的发展，表明这种神经基质（neural substrate）是计算的最佳方案。

图2. 人工神经网络中的视觉和前庭信号输入，在经MSTd层三种不同方式解码后，分别输出对自我、场景和因果推断的估计

该网络在感知任务中的表现实质上反映了人类和猴子在方向辨别任务中的行为[11]。成功训练后，该网络具有较小的视觉和前庭运动输入的跨模态差异。这些测试中的视觉刺激被更改为一组移动点集，其可靠性通过改变向同一方向移动的点的比例来操纵。网络则根据其可靠性整合视觉和前庭输入：如果视觉输入可靠性较低，自我运动估计与前庭输入更一致；如果视觉输入可靠性较高，自我运动估计则与视觉输入更一致。值得注意的是，在训练期间，自我运动估计得到了加强，以匹配50-50的平均视觉和前庭信号，这就提出了一个问题，即执行可靠性加权整合的能力是来自对几项任务的联合训练，还是由于网络架构？

当网络推断出单独的原因时，视觉输入对自我运动估计的影响要比推断出两个信号的共同来源时低。如果一种模态输入是有噪声的，即相同的刺激导致不同试验的内部测量略有不同，这种跨模态偏向的差异会自动出现[6]。然而以目前的形式，该网络还无法重现因果推断的以下行为特征：当信号更不一致，即不太可能从同一来源出现时，跨模态的偏差为何会减少。

鉴于该模型是严格的前馈，因果推断及自我和世界的运动估计有单独的输出，该模型根本不能让因果推断判断影响自我运动的估计。换句话说，模型无法忽视我们介绍性示例中旧蚊子叮咬的挠痒感。相比之下，贝叶斯因果推断模型[6]则复制了跨模态偏差对两个信号之间差异的非线性依赖性[6,16]。他们通过将整合和分离的估计值相加来实现这一目标，并分别以共同和单独来源的推断概率加权（图1H）。在这种观点下，Rideaux等人[9]的神经网络模型包含了知觉两阶段过程的第一阶段。

事实上，多感官背景下的人类大脑活动，对整合的、分离的、及最终合并的估计在独立表征上是一致的[17,18]。贝叶斯因果推断方法的另一个关键组成部分是假设的共同来源的先验概率。在 Rideaux 等人的模型[9]中，这种先验可能反映在多感官 MSTd 层和输出层之间的连接权重中。然而，这种先验共因随着实验环境的变化而变化[19,20]，表明还需要对因果推断过程进行额外的输入。因此，一个更完整的多感官整合和因果推断模型，还将需要为同源和分离源的知觉及灵活的先验共源估计提供表征空间。

总之，Rideaux等人[9]为因果推断中同调和异向神经元的作用这一难题提供了令人信服的解决方案。他们通过训练一个人工神经网络，借由促使同调和反向神经元同时发展，得出了对自我和世界的运动估计及相应的因果推断判断。不过大脑是否以这种简单的前馈方式实现这推断，以及因果推断是如何参与知觉判断的，依然是未来重要的问题。此外在个体发育过程中，是否需要感觉体验来发展异向神经元，或者这种人工神经网络训练所援引的过程是否在进化过程中发挥了作用，将同样是令人非常着迷的探索方向。

参考文献

1. M. O.Ernst,M. S.Banks, Humans integrate visual and haptic information in a statistically optimal fashion. Nature415, 429–433 (2002).

2. J.Trommershäuser,K.Körding,M. S.LandyM. S.Landy,M. S.Banks,D. C.Knill, “Ideal-observer models of cue integration” in Sensory Cue Integration, J. Trommershäuser, K. Körding, M. S. Landy, Eds. (Oxford University Press, New York, 2011), pp. 5–29.

3. M. S.Landy,L. T.Maloney,E. B.Johnston,M.Young, Measurement and modeling of depth cue combination: In defense of weak fusion. Vision Res.35, 389–412 (1995).

4. D.Alais,D.Burr, The ventriloquist effect results from near-optimal bimodal integration. Curr. Biol.14, 257–262 (2004).

5. S.Gepshtein,J.Burge,M. O.Ernst,M. S.Banks, The combination of vision and touch depends on spatial proximity. J. Vis.5, 1013–1023 (2005).

6. K. P.Kördinget al., Causal inference in multisensory perception. PLoS One2, e943 (2007).

7. K.Dokka,H.Park,M.Jansen,G. C.DeAngelis,D. E.Angelaki, Causal inference accounts for heading perception in the presence of object motion. Proc. Natl. Acad. Sci. U.S.A.116, 9060–9065 (2019).

8. W.Fanget al., Statistical inference of body representation in the macaque brain. Proc. Natl. Acad. Sci. U.S.A.116, 20151–20157 (2019).

9. R.Rideaux,K. R.Storrs,G.Maiello,A. E.Welchman, How multisensory neurons solve causal inference. Proc. Natl. Acad. Sci. U.S.A.118, doi:10.1073/pnas.2106235118 (2021).

10. Y.Gu,D. E.Angelaki,G. C.Deangelis, Neural correlates of multisensory cue integration in macaque MSTd. Nat. Neurosci.11, 1201–1210 (2008).

11. C. R.Fetsch,A.Pouget,G. C.DeAngelis,D. E.Angelaki, Neural correlates of reliability-based cue weighting during multisensory integration. Nat. Neurosci.15, 146–154 (2011).

12. A.Chen,G. C.Deangelis,D. E.Angelaki, Functional specializations of the ventral intraparietal area for multisensory heading discrimination. J. Neurosci.33, 3567–3581 (2013)

13. H. R.Kim,X.Pitkow,D. E.Angelaki,G. C.DeAngelis, A simple approach to ignoring irrelevant variables by population decoding based on multisensory neurons. J. Neurophysiol.116, 1449–1467 (2016).

14. W. H.Zhanget al., Complementary congruent and opposite neurons achieve concurrent multisensory integration and segregation. eLife8, e43753 (2019).

15. I.Yamashita,K.Katahira,Y.Igarashi,K.Okanoya,M.Okada, Recurrent network for multisensory integration-identification of common sources of audiovisual stimuli. Front. Comput. Neurosci.7, 101 (2013).

16. M. T.Wallaceet al., Unifying multisensory signals across time and space. Exp. Brain Res.158, 252–258 (2004).

17. T.Rohe,U.Noppeney, Cortical hierarchies perform Bayesian causal inference in multisensory perception. PLoS Biol.13, e1002073 (2015).

18. Y.Cao,C.Summerfield,H.Park,B. L.Giordano,C.Kayser, Causal inference in the multisensory brain. Neuron102, 1076–1087.e8 (2019).

19. S.Badde,K. T.Navarro,M. S.Landy, Modality-specific attention attenuates visual-tactile integration and recalibration effects by reducing prior expectations of a common source for vision and touch. Cognition197, 104170 (2020).

20. R.Gau,U.Noppeney, How prior expectations shape multisensory perception. Neuroimage124 (Pt A), 876–886 (2016).

作者：Stephanie Badde, Fangfang Hong, Michael S. Landy

译者：十三维 |封面：Stuart McReath

审校：梁金 | 编辑：邓一雪 | 排版：光影

原文转载自公众号“集智俱乐部”：

https://www.pnas.org/content/118/36/e2112686118

https://mp.weixin.qq.com/s/db-mXlmDTWymzPR8fvTBgw

查看原图 1.09M