大脑表征信息的策略，哪些值得AI借鉴？

天承办公室 2023-10-18 发布于北京

展开全文

2023年1月，北京大学心理与认知科学学院吴思教授与清华大学社会科学院心理学系的刘嘉教授等人在“AI of Brain and Cognitive Sciences: From the Perspective of First Principles”一文中提到，大脑的基本原理为改进人工智能提供了最重要的参考。

近期，追问邀请了四位认知神经科学领域的青年学者基于这篇重要论文对“人工智能如何向人类智能学习？”的话题进行了解读，从吸引子网络、临界性、随机网络、稀疏编码、关系记忆、感知学习六个方面与读者一起揭秘大脑的基本原理。

本次解读将分上中下三篇，此为中篇。

随机编码：大脑编码信息的基础？

自从Hubel和Wiesel首次发现神经元对条状方向的调谐性之后^[1]，神经生理学家便一直致力于寻找针对单一特定刺激具有清晰的调谐曲线的神经元。然而许多非线性混合选择性神经元的出现使得他们经常陷入混乱^[2-7]，这些神经元同时、非线性地反映不同类型的特征。为了理解这一现象，科学研究逐渐转向了对神经元的群体分析：群体编码（population coding）理论认为每个神经元在一个维度中活动，而一群神经元的活动则组成一个高维状态空间，引入这样一个高维空间后，更多的信息便可以被更差别性的编码；增加了表征维度后，原本线性不可分的表征变得线性可分了^[8]，也让这些信息便于被大脑下游结构进一步处理。

另外，为了解释混合选择性神经元可以同时参与不同信息编码的特性，需要综合考虑多样性^[3]与混合选择性，同时还要保持尽可能的简洁性，一些研究人员提出随机网络可能在支持多样混合性的大脑环路中起作用^[9-15]。在随机网络中，神经元突触连接的权重符合某些随机分布，它们将信号混合后作为下游神经元的输入，多样性便来自于这些连接的随机性；而在每个神经元内部，输入会经历非线性映射（图1）。通过这种方式，神经元便具有非线性混合选择性，越来越多的生物学证据也开始支持这一观点。

▷图 1：随机网络示意图。随机网络中各个节点的链接数量大致相似，在度分布图（degree distribution graph）上形成钟形曲线。图源：参考文献43

在随机编码理论中，神经元群体构成的神经空间所能拥有的最大维度是神经元总数，为了增加维度，在完全随机连接的极端情况下，连接后的神经元群体应该比连接前的神经元群体更大。正因为此，网络应该具有发散性的架构。一方面，人们在不同物种的生物大脑中观察到这样的发散网络构架^[16]；另一方面，自上世纪九十年代早期以来，人工智能（AI）中就已经有了这样的观点^[17]。

AI中的随机网络是指某些权重随机初始化并在训练过程中不被调整的一类人工神经网络。最初这些网络进入人们的视野，一是因为它们易于分析，二是因为它们的训练速度要快得多。然而，研究人员很快发现随机网络的表现出奇地好^[18]；在短期预测、图像识别和生物医学分类等应用中，它们的测试准确率接近完全训练的模型^[15]。受到这些观察结果的启发，研究人员研究了各种随机网络的特性。

其中，前馈网络和类储层的递归网络这两类网络得到了广泛的研究。在前馈网络中，输入神经元通过随机权重连接到一个规模更大的隐藏层。在储层计算中，输入神经元连接到一个内部神经元组成的储层中，这些内部神经元之间随机连接。前馈网络的例子包括随机向量函数链接网络、径向基函数链接网络、带有随机权重的前馈网络、无反向传播算法、权重无关网络和随机卷积神经网络。储层计算中的例子包括回声状态网络、液体状态机和深度回声状态网络。

所有这些模型都有三个共同的特征：

（1）隐藏层或储层创建了输入的高维表征^[19]，
（2）连接到输出神经元的权重需要进行线性优化^[17]，
（3）网络性能对不同随机权重的实现具有稳健性^[20]。

从这些观察中可以得出的结论是，影响任务性能的是训练后的人工神经网络的架构，而不是精细调整的连接权重。更有趣的是，甚至有进一步的研究表明，架构本身甚至也可以是随机的：由随机图生成器创建的架构在ImageNet上显示出良好的分类准确率（随机连接网络为79%，ResNet-50为77%）^[21]。这些观察表明，随机性并不是一个草率的操作，而可能是机器智能的基础。这一观点与上面总结的神经科学中的类似推测相呼应。随机网络的有效性和效率，以及它体现未知计算原则的潜力激发了许多人对其进行分析性研究。

生物学证据、工程实践和理论分析似乎都指向一个观点：分布式的随机网络足以实现认知功能。然而，这个结论过于简单化了，事实上，随机网络必须与其他网络特性相结合才能实现复杂的功能。这些特性包括收敛性读出^[22]、可塑性^[23,24]、兴奋性-抑制性平衡^[10,25]和稀疏性^[5,10,26]。所有这些附加特征，都是基于随机连接这一前提条件，它们对于神经环路而言是不可或缺的。

随机网络是产生神经生理学中常见的混合选择性的最简单的神经环路。尽管与“功能只能来自有组织的网络”的常识相抵触，但在过去几十年里，随机网络已在生物大脑的各种系统中被发现。与此同时，随机性作为一种高效的计算方法，在人工智能中被用于构建人工神经网络。由于其独特性和有效性，随机网络已经吸引了许多理论研究者，来探究潜在的原则。

这些原则可以在三个概念层面上解释^[27]：在计算层面上，随机网络与经过训练的神经网络一样，是通用的函数逼近器。通过发散性架构，随机网络创建了高维状态空间，在此空间中判别性解码更加灵活、可行。在算法层面上，随机网络就像计算机科学中的局部敏感哈希算法一样。这些算法可以大大节省训练深度网络所需的计算量。在实现层面上，随机网络是大脑中密集排列的神经毡中分布式网络最合理的物理实现方式。

但值得注意的是，随机网络的原则只有在与其他特性一起工作时才能完全发挥功能。过去十年间，人们对随机网络的重要性有了更多的认识，并澄清了一些关键概念，仍有更多的问题亟待解答：在计算层面上，尽管了解了维度和稀疏性的问题，但人们对随机网络中的表征仍然了解甚少。

在状态空间中，内在状态流形是什么样子的？在算法层面上，用于随机采样权重的分布仍然是经验性的、任意的。那么应该如何指定这些分布？是否应该使用先验知识？生成的权重应该是固定的，还是经过缓慢的赫布型学习*？在实现层面上，大脑还具有模块化的特性，比如功能列。那么模块化应该如何与随机分布的网络结构相协调？当弄清楚这些问题时，人们对随机网络的认识将会进一步深入，届时，或许确实可以确认，随机网络代表了智能的基本原则。

*编辑注：赫布型学习（Hebbian learning）指的是唐纳德·赫布（Donald Hebb）提出的一种神经网络学习机制，即两个邻接神经元若同时被激活，则联接权重增加的学习方法。

稀疏编码：大脑独特的特征

大脑是一个存储和处理信息的机器。为了实现这些功能，需要对外部信息进行准确的量化和合理的表征^[28]。稀疏编码策略是实现这些目标的关键途径。大脑在多个层面上利用稀疏性机制，包括视觉、嗅觉、触觉等知觉层面^[29]，讨论这些机制对于理解神经系统组织原则和智能形成至关重要。

稀疏编码的含义是：在任何给定时刻，发放神经元的数量仅占总神经元数量的一小部分（图2）^[30]。“稀疏”本身只是一个相对的概念，没有明确的阈值，在与另外两种更极端的编码方案——局部编码和密集编码——比较时，其优势更加凸显^[31]。局部编码，又被称为“one-hot”编码：每个神经元仅编码一个物体，任何两个物体的表征没有重叠，“祖母细胞”*便是最著名的例子。另一种极端编码情形是密集编码，又被称为完全分布编码：每个物体由神经元群体中所有神经元的联合活动来表征。而稀疏编码处于以上两种情形之间，同时拥有两者的优势^[32]。

*编辑注：祖母细胞（grandmother cell）是20世纪60年代末一些科学家提出的视觉系统中一种假想的功能高度特异化的细胞。主要是对主体所熟悉的某些复杂对象的图像（如自己的祖母的不同照片）才有剧烈的反应，而对其他对象反应很小。这是对图像稀疏编码的一种极端形式的假设。

▷图 2：稀疏编码示意图。在稀疏编码机制中，一幅图像由一小部分被激活的元件所表征，且被激活的原件分布随图像不同而有所差异（见图a）。另外，对于单一元件而言，由于稀疏编码过程中该元件大部分时间会处于静息态，这会导致其活动概率分布图上出现一个“峰”和两个长“尾”（见图b）。图源：参考文献44

稀疏编码在编码能力、能源效率和解码难度之间起到了很好的权衡作用。局部编码不允许重叠，一个含有N个二进制神经元的群体最多可以表征N个不同的项目。编码更多物体时需要招募更多神经元，从而消耗更多能量，而大脑可用的能量是有限的，因此为局部编码设定了上限。相反，密集编码允许N个二进制神经元编码2^N个物体，显著提高了表征能力。在稀疏编码中，即使只有少数（最多K个）神经元可以同时为一个物体所激活，可以编码的物体总数也可以达到

，与局部编码相比，在编码相同信息片段时消耗的能量要少得多。分布式编码的困难之处在于读取，需要以生物学上合理的方式学习。但局部编码及其输出之间的关联可以利用简单的赫布学习机制来建立；因此，如果神经活动模式是稀疏编码的，学习会变得更有效^[30,33]。

其次，稀疏编码还平衡了泛化和抗干扰之间的关系。在局部编码中，每个模式与其他模式之间是正交的，不同模式之间没有相似性，因此不可能从一个模式泛化到另一个模式。密集编码和稀疏编码允许部分重叠和不同级别的编码相似性，使得具有相似编码的项目之间可以进行泛化。然而，密集编码决定了许多物体（如果编码空间完全被占用，最多可以达到所有物体的50%）可能会激活同一个神经元，这种情况可能会导致不同发放模式之间的干扰^[34]。稀疏编码则可以帮助应对这种灾难性遗忘^[35]，并减少模式之间的干扰^[36]。在极端情况下，局部编码使得多个物体可以同时表征，相互之间完全不会受到干扰。

最后，稀疏编码显式地表征了刺激的自然结构，神经元响应有明显的调谐曲线式的反应。感受野复刻了环境中会遇到的频率结构，使得仅有一小部分神经元也可以表征一个自然刺激。结合过完备基*，稀疏编码可能会产生曲面流形的分段平坦表征，这个流形是自然刺激聚集的，从而简化了后续阶段的表征和分析^[30]。这些优势支持生物体对信息进行更高效的编码、传输和存储。

*编辑注：过完备基（overcomplete basis）通常指的是一个向量空间的基，其中包含比必要的基向量更多的向量。这种情况可能导致冗余和过度表示，但在某些情况下也有其用处，例如在压缩感知和稀疏表示领域。过完备基的概念在信号重构、降维和特征选择等应用中起着重要作用。

在动物中，人们也广泛观察到了稀疏编码的存在，这些证据存在于各种感觉系统以及与运动、记忆有关的脑区中^[29,37-39]。科学家们普遍认为，神经生物学中稀疏编码信号的实现可能是非常普遍的。

稀疏性和稀疏编码一直受到不同领域研究人员的关注。Horace Barlow于1961年提出了有效编码假设*^[40]，随后提出稀疏性可能是感知表征的基本原则^[41]。其他研究表明，自然图像可以进行稀疏编码，而这种编码特性与V1区神经细胞的响应非常相似^[42]。

*编辑注：有效编码假设（valid encoding assumptions）是Horace Barlow于1961年为脑的感知编码提出的一个理论模型。他认为，生物视觉系统初级阶段的一个重要功能就是尽可能地去除输入刺激的统计冗余。

许多人努力理解和解释稀疏性的潜在机制及其相关的生物学意义。而稀疏性在推动机器学习和智能算法发展方面的作用也受到关注，人们从多个方面探索了稀疏性和稀疏编码的优势，包括但不限于编码能力、稳健性和泛化性、压缩感知以及信息传输效率。这些研究促成了字典学习算法（dictionary learning algorithms）的发展，以及像分层时序记忆（Hierarchical Temporal Memory）这样利用稀疏性进行神经计算的新算法的出现。

正如Suryaz Ganguli等人所说的那样，“对任何神经系统来说，存储、传递和处理高维神经活动模式或外部刺激都是根本性的挑战。”处理和学习外部信息是神经系统的基本任务。此外，高维信息在本质上往往是稀疏的。稀疏编码策略可能是生物大脑处理外部信息的一种必要且可行的方法，可以提高处理效率和稳健性。

未完待续……

参考文献

[1] Hubel DH and Wiesel TN. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex. The Journal of physiology 1962; 160(1): 106.
[2] Rigotti M, Barak O, Warden MR et al. The importance of mixed selectivity in complex cognitive tasks. Nature 2013; 497(7451): 585-590.
[3] Fusi S, Miller EK and Rigotti M. Why neurons mix: high dimensionality for higher cognition. Current opinion in neurobiology 2016; 37: 66-74.
[4] Johnston WJ, Palmer SE and Freedman DJ. Nonlinear mixed selectivity supports reliable neural computation. PLoS computational biology 2020; 16(2): e1007544.
[5] Barak O, Rigotti M and Fusi S. The sparseness of mixed selectivity neurons controls the generalization–discrimination trade-off. Journal of Neuroscience 2013; 33(9): 3844-3856.
[6] Parthasarathy A, Herikstad R, Bong JH et al. Mixed selectivity morphs population codes in prefrontal cortex. Nature neuroscience 2017; 20(12): 1770-1779.
[7] Wallach A, Melanson A, Longtin A et al. Mixed selectivity coding of sensory and motor social signals in the thalamus of a weakly electric fish. Current Biology 2022; 32(1): 51-63.
[8] Ebitz RB and Hayden BY. The population doctrine in cognitive neuroscience. Neuron 2021; 109(19): 3055-3068.
[9] Lalazar H, Abbott LF and Vaadia E. Tuning curves for arm posture control in motor cortex are consistent with random connectivity. PLoS computational biology 2016; 12(5): e1004910.
[10] Pehlevan C and Sompolinsky H. Selectivity and sparseness in randomly connected balanced networks. PloS one 2014; 9(2): e89992.
[11] Natale JL, Hentschel HGE and Nemenman I. Precise spatial memory in local random networks. Physical Review E 2020; 102(2): 022405.
[12] Mastrogiuseppe F and Ostojic S. Intrinsically-generated fluctuating activity in excitatory-inhibitory networks. PLoS computational biology 2017; 13(4): e1005498.
[13] Pattadkal JJ, Mato G, van Vreeswijk C et al. Emergent orientation selectivity from random networks in mouse visual cortex. Cell reports 2018; 24(8): 2042-2050.
[14] Hansel D and van Vreeswijk C. The mechanism of orientation selectivity in primary visual cortex without a functional map. Journal of Neuroscience 2012; 32(12): 4049-4064.
[15] Vasas V, Peng F, MaBouDi H et al. Randomly weighted receptor inputs can explain the large diversity of colour-coding neurons in the bee visual system. Scientific reports 2019; 9(1): 1-13.
[16] Albus JS. A theory of cerebellar function. Mathematical biosciences 1971; 10(1- 2): 25-61.
[17] Scardapane S and Wang D. Randomness in neural networks: an overview. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 2017; 7(2):e1200.
[18] Cao W, Wang X, Ming Z et al. A review on neural networks with random weights. Neurocomputing 2018; 275: 278-287.
[19] Tapson J and van Schaik A. Learning the pseudoinverse solution to network weights. Neural Networks 2013; 45: 94-100.
[20] Saxe AM, Koh PW, Chen Z et al. On random weights and unsupervised feature learning. In Icml 2011, January.
[21] Xie S, Kirillov A, Girshick R et al. Exploring randomly wired neural networks for image recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision 2019.
[22] Mittal AM, Gupta D, Singh A et al. Multiple network properties overcome random connectivity to enable stereotypic sensory responses. Nature communications 2020; 11(1): 1-15.
[23] Lindsay GW, Rigotti M, Warden MR et al. Hebbian learning in a random network captures selectivity properties of the prefrontal cortex. Journal of Neuroscience 2017; 37(45): 11021-11036.
[24] Schaffer ES, Stettler DD, Kato D et al. Odor perception on the two sides of the brain: consistency despite randomness. Neuron 2018; 98(4): 736-742.
[25] Van Vreeswijk C and Sompolinsky H. Chaos in neuronal networks with balanced excitatory and inhibitory activity. Science 1996; 274(5293): 1724-1726.
[26] Babadi B and Sompolinsky H. Sparseness and expansion in sensory representations. Neuron 2014; 83(5): 1213-1226.
[27] Marr D. Vision: A computational investigation into the human representation and processing of visual information, (The MIT Press 2010).
[28] Ma Y, Tsao D and Shum HY. On the principles of Parsimony and Self-consistency for the emergence of intelligence. Frontiers of Information Technology & Electronic Engineering, 2022. 23(9): p. 1298-1323.
[29] DeWeese MR, Wehr M and Zador AM. Binary spiking in auditory cortex. J Neurosci, 2003. 23(21): p. 7940-9.
[30] Olshausen BA and Field DJ. Sparse coding of sensory inputs. Current Opinion in Neurobiology, 2004. 14(4): p. 481-487.
[31] Foldiak P and Endres D. Sparse coding. 2008.
[32] Földiák P. Sparse coding in the primate cortex, in Handbook of Brain Theory and Neural Networks (2nd ed.). 2002, The MIT Press: Cambridge, MA.
[33] Willshaw D and Dayan P. Optimal Plasticity from Matrix Memories: What Goes Up Must Come Down. Neural Computation, 1990. 2(1): p. 85-93.
[34] Rolls ET and Treves A. The relative advantages of sparse versus distributed encoding for associative neuronal networks in the brain. Network-Computation in Neural Systems, 1990. 1(4): p. 407-421.
[35] Liu V, Kumaraswamy R, Le L et al. The Utility of Sparse Representations for Control in Reinforcement Learning. Thirty-Third Aaai Conference on Artificial Intelligence / Thirty-First Innovative Applications of Artificial Intelligence Conference / Ninth Aaai Symposium on Educational Advances in Artificial Intelligence, 2019: p. 4384-4391.
[36] Dayan P and Abbott LF. Causal Models for Density Estimation. Theoretical neuroscience: Computational and mathematical modeling of neural systems, 373- 389, (Massachusetts Institute of Technology Press2001).
[37] Brecht M and Sakmann B. Dynamic representation of whisker deflection by synaptic potentials in spiny stellate and pyramidal cells in the barrels and septa of layer 4 rat somatosensory cortex. J Physiol, 2002. 543(Pt 1): p. 49-70.
[38] Perez-Orive J, Mazor O, Turner GC et al. Oscillations and sparsening of odor representations in the mushroom body. Science, 2002. 297(5580): p. 359-365.
[39] Tang S, Zhang Y, Li Z et al., Large-scale two-photon imaging revealed super- sparse population codes in the V1 superficial layer of awake monkeys. Elife, 2018. 7.
[40] Barlow HB. Possible principles underlying the transformation of sensory messages. Sensory communication, 1961. 1(01).
[41] Barlow HB. Single units and sensation: a neuron doctrine for perceptual psychology? Perception, 1972. 1(4): p. 371-94.
[42] Olshausen BA and Field DJ. Emergence of simple-cell receptive field properties by learning a sparse code for natural images. Nature, 1996. 381(6583): p. 607-609.
[43] Olshausen B A , Field D J .Sparse Coding with an Overcomplete Basis Set: A Strategy Employed by V1?[J].Vision Research, 1997, 37(23):607-609.
[44] Tmkin I , Eldredge N .Networks and Hierarchies: Approaching Complexity in Evolutionary Theory[J].Springer International Publishing, 2015.