"巴比伦所有的废墟看上去远不如人类的思想的毁灭那样可怕。" ——斯克罗普·戴维斯(Scrope Davies) 近些年来,神经病学家对脑部受到损伤的病人进行了研究。可能造成这些损伤的方式有多种,如中风、头部受到打击、枪伤、感染等,许多损伤改变了病人的视觉意识的某些方面,但病人的其他一些机能(如语言或运动行为)则基本未受影响,这些证据表明皮层具有显著的功能分化,而这种分化的方式通常是相当令人吃惊的。 在许多情况下,脑受到的损伤并不是单一的、专门化的。一粒高速射人的子弹对各皮层区域一视同仁。(活的皮层组织是相当柔软的胶体,用移液管吸吮能很容易地移去其中一小部分。)通常情况下,损伤可能包括几个皮层区域,对头部两侧对应区域同时造成伤害的后果最为严重,不过这种情况非常罕见。 许多神经病学家仅有时间对病人做简短的检查——仅够作出一个关于损伤的可能部位的合理猜测。后来,甚至连这种形式的检查工作也大部分被脑扫描所取代。近来,描述一个单独的、隔离的脑损伤被认为是不科学的,因此习惯上同时报告许多相似的病症。遗憾的是,这导致了将一些实际不同的损伤形式混为一谈。 当前的趋势在某种程度上纠正了这种做法。有少数病例中病人的感觉或行为的某个特定方面发生了改变,而其他大部分方面却未受伤害,现在往往特别注意这些病例。这些病人受到的伤害很可能比较有限,因而更加专门化。人们还努力通过脑扫描来定位这些损伤。如果病人合作的话,他将在清醒状态下进行完整的一组心理学及其他一些测试,用来发现哪些是他所能或不能看到或做到的。在某些情况下,这种测试会进行好几年。由于关于视觉处理的理论变得越来越深奥,检验这些观点的实验也变得更加广泛和精细。现在,它们可以和脑扫描技术相结合。该技术可以记录脑在完成这些不同任务时的行为。这些结果可以在具有相似损伤或相似病症(或者二者皆有的)病人之间进行比较和对照。 对V1区(条纹皮层)的损伤是一个明显的例子,现就以此作为开始。如果脑一侧的V1区被完全破坏,病人的表现是看不见对侧的半个视野,在本章的结尾我将详细讨论一个被称作"盲视"的奇怪现象。在这里让我们先看一下对视觉等级最高层部分损伤的结果,并将损伤局限在头的右手侧。这是人们所知的单侧忽略。损伤区域大致对应于猕猴的7a区(见图48)。这通常由大脑动脉血管疾病(如中风)引起的。 在早期阶段,症状可能非常严重——-病人的眼睛和头会转向右侧。在最严重的病例中,损伤的范围可能很大,以致病人失去了左侧的控制和感觉,他会否认他自己的左腿是属于他的。有一个人对于别人的腿出现在他的床上感到极度愤怒,于是他把它扔到了床外。结果他惊讶地发现他自己躺在了地板上。 大多数情况并没有这么严重。通常几天以后严重的病症就会减轻或消失。例如,这时病人可能无法拿起盘中左侧的食物。如果让他画一个钟,或者一张脸,他通常只画其中的右侧。在几周以后,随着脑得到部分恢复,他对半边的忽略程度进一步下降,但他对左侧的注意仍显得比右侧弱。如果让他平分一条直线,他会将中点画到右边。不过他对左侧并不完全是盲的。如果那里有一个孤立的物体,他会看见它。但如果在右侧也有某个明显的物体,他就无法注意到左侧的物体。此外,他经常否认有什么东西是斜的,而且不承认看到了视野左侧的没有物体的空间。 单侧忽略并不限于视觉感知。它也会出现在视觉想像中。意大利的埃德瓦尔多·比西阿奇(Edoardo Bisiach)和同事们报告了一个典型的例子[1]。他们要求病人想像自己站在米兰市的一个主要广场的一端,面对教堂,并叙述他们所回忆起的景象。他们描述的主要是从该视点看到的右侧的建筑的细节。随后病人被要求想像站在广场的对侧,而教堂则在他们身后,再重复上述过程。则他们讲述的主要是先前他们叙述时忽略的那一侧的细节,此时仍是视野的右侧。 另一种显著的脑损伤形式造成了颜色视觉部分或全部丧失。患者看到的所有物体仅具有不同浓淡的灰色,这是众所周知的"全色盲"——早在1688年,被称为"化学之父"的罗伯特·波义耳(Robert Boyle)就曾经报告过。1987年,奥立佛·萨克斯(Oliver5acks)和罗伯特·瓦赛曼(Robert Wasserman)在《纽约书评》中讲述了这样一个病例,病人是纽约的抽象派画家乔纳森·艾(JonathanI.)。他对颜色有特殊的兴趣,以致他听音乐时会产生"丰富的内部颜色的一阵激发"。这被称作是联觉。在一次事故后他的这种联觉消失了,因而音乐对他的感染力也大大地消失了。 损伤是一次相当轻微的车祸造成的。乔纳森·艾可能受到了撞击,但除此以外他好像并未受伤。他能够向警察清楚地叙述事故的原因。但后来他感到头疼得很厉害,并经常忘记这次事故。昏睡之后,次日清晨他发现自己不能阅读了。不过这种障碍在五天后消失了。虽然他对颜色的主观感觉并未改变,但他却很难区别颜色了。 这种情况在第二天又进一步发展。尽管他知道那是一个阳光灿烂的早晨,在他驱车前往工作室时,整个世界看上去像是在雾中一样。只有当他到达那里并看见自己的那些色彩绚丽的绘画现在变得"完全是灰色而缺乏色彩"时,他才被自己有这样缺陷所惊呆了。 这种缺陷是残酷的。萨克斯和瓦赛曼形象而具体地解释了这种心理效应。虽然可以判断他的问题并不比看老式的黑白电影更糟,但是艾先生并不这样认为。大多数食物让他感到厌恶——例如,土豆看上去是黑的。在他看来他妻子的皮肤就像白鼠的颜色,他无法忍受同她做爱。即使他闭上眼睛也无济于事。他那高度发达的视觉想像力也变得色盲了。连他的梦也失去了往日的色彩。 艾先生所感受的灰度尺度被压缩了,特别在强光下更严重。因此他不能辨别细微的色调等级。他对所有波长的光的反应是一样的,只在光谱的短波区("蓝色")有一个额外的敏感峰。这可以解释他为什么看不见蓝天上的白云。他在识别面孔时也遇到了困难,除非他们离得很近他才能认出来。但由于突出来的物体具有显著的对比,十分清晰,几乎像剪影一样,因此他的视觉显得更敏锐了。他对运动异常敏感。他报告说:"我可以看到一条街区外的一条虫在蠕动。"在夜间他声称自己能看得非常清楚,能读出四条街区外的车牌。因此,用他自己的话说,他成了一个"夜行者"。在夜间徘徊时,他的视觉并不比别人差。 艾先生失去的颜色意识对视觉的其他方面影响极小,这种丧失只改变了他对灰度浓淡的敏感性并使他对运动更敏锐。这种损伤显然是双侧的,因为两侧视野都受到了影响(有些情况下全色盲仅对一侧有影响)。这种损伤还是一种延迟过程,因为对颜色意识的完全丧失是在两天内发展起来的。如果不是他对短波长的光(蓝光)有增强反应的话,这很像是P系统有缺陷(P系统对形状和颜色更敏感),而大部分视觉任务由未受损伤的M系统(对运动更敏感,见第十章)来完成。 艾先生的脑也进行了MRl扫描和CAT扫描(尽管后者尺度较粗糙),但未发现任何损伤,因而尚不清楚损伤的部位是否在皮层上。不管怎样,上述情况表明全色盲通常包括了人视觉系统中相当高层次皮层的损伤(枕叶的腹侧正中部分)。 另一种损伤造成的缺陷非常惊人,这就是面容失认症(prosopagnosia)。上个世纪的一位英国首相就遇到了这种困难。他甚至认不出自己的长子的脸。面容失认症有多种不同的形式,这可能是因为不同病人的脑损伤的实质各有不同,问题通常不是他们认不出那是一张脸,而是识别不出那是谁的脸,不知那是他的妻子的、孩子的还是一个老朋友的脸。病人常常认不出照片上他自己的脸。他甚至不能认出镜子中的自己,尽管他知道那肯定是他的脸,因为当他眨眼时镜中的像也在眨眼。他常常能从妻子的声音或走路的样子中认出她来,但只看她的脸却不能。 除非损伤很严重,否则他能描述一张脸的特性(如眼睛、鼻子、嘴等等)以及它们的相对位置。此外,他的目视扫描机制也正常。在一些情况下,让他辨认某些在不同光照下拍摄的不熟悉的照片时,他能区分这些不同的面孔。但即便他和他们早就很熟悉,他也不能说出哪张照片是谁的脸。 双侧全色盲患者常常同时患有面容失认症。但应当记住,没理由认为损伤(通常由中风引起)只影响单个皮层区。事实上,面容失认症可以和其他几种缺陷一同出现。 神经病学家安东尼奥·达马西欧(Antonio Damasio)对面容失认症的研究作出了不少重要的贡献。情况并不仅局限于面孔识别困难,在一个病例中,一个农夫再也不能识别他的牛,虽然原先他能叫出其中每一头牛的名字。但达马西欧的研究更深入一步。他和同事们表明,许多病例中病人不能在一组相类似的物体中识别出单个成员,例如,病人可能很容易认出一辆小汽车,但无法说出它是福特牌轿车还是罗尔斯·罗依斯轿车;不过他能识别救护车或救火车,可能是因为它们与典型的汽车有显著差异。他能认出一件衬衫,但不知道那是不是礼服衬衫。 达马西欧和同事们还发现,尽管有些病人不能分辨面孔,他们却能识别面部表情的含义并能估计年龄和性别。其他面容失认症患者则没有这种能力,这些结果表明面孔不同方面特征的识别是在脑的不同部位完成的。 目前对如何准确描述面容失认症及其内在机制尚有争议。达马西欧强调这不是一种普通的记忆疾病,因为这种记忆可以通过其他感觉通道(如听觉)激发出来。每种情况下的准确机理尚有待发现。 心理学家约瑟夫.齐尔(Joseph Zihl)和同事们报告了一个令人吃惊的病例[5],病人对大多数形式的运动没有意识。病人所受的损伤是双侧的,位于皮层的多个区域。第一次接受检查时,病人处于非常惊恐的状态,这并不令人奇怪,因为她看见在一个地方的人和物体突然出现在另一个地方,而她并未感觉到他们的运动。当她想过马路时就特别感到沮丧,因为原先在很远处的汽车会突然离她很近。当她试图把茶倒入杯子时,她只看到了一道凝固的液体弧的反光。因为她注意不到杯子中茶的上升,茶经常溢出来。她所体验的世界与我们某些人在迪斯科夜总会中看到的频闪灯光下的舞池的地板很相似。 在极慢的时间尺度上我们也遇到过这个问题。钟的时针看上去并不动,但是过一段时间后我们再看时,它已在另一个位置上。我们对这样一种观念很熟悉,一个物体可能是动的,即便我们并不能直接感受到它的运动。但在日常生活的一般时间尺度上我们通常没有这种困难。显然我们必定有一个特殊的系统自行来检测运动,而不必由时间分隔的两次不同的观察中从逻辑上推断它。 仔细的测试表明病人可以检测某些形式的运动,可能一种严重受损后残存的短时机制的作用的结果,而形成关于运动的更为全局的联系机制则已被破坏。她的视觉还有其他一些缺陷,大多数都与运动有关。但她能看见颜色并能识别面孔,也未表现出有本章前面描述的各种类型的忽视的征兆。 还有许多其他种类的脑损伤所引起的视觉缺陷。报导中有两个病例,患者失去了深度感知,看到世间万物和人都完全是平的,因而"由于人的身体仅由轮廓线表示,最胖的人看上去也只是运动的纸板人形而已"。其他病人仅从通常的正对方向看物体时才能识别出它来,而从非常规角度观看,如从正上方看一个平底锅,则无法识别。 英国的两位心理学家格林·汉弗莱斯(Glyn Humphreys)和简.里多克(Jane Riddoch)用了五年时间研究一个病人。他有多种视觉缺陷,如,他失去了颜色视觉,也不能识别面孔[7]。他们表明他的主要的视觉问题在于,当他看见一个物体的局部特征时,他不能把它们组合在一起。因此,尽管他能很好地复制一幅地图,能清晰地发音,并流利地口头描述他中风前所知道的事情,他却不能认出物体是什么。这些病例很重要,它表明一个人失去了部分高层视觉后仍会有低层次上的视觉意识。它支持这样一种主张:没有一个单独的皮层区标记了我们能看到的所有事物。 有一种视觉缺陷是那么令人惊异,以致知道此事的人都怀疑它是否可能存在。这就是安通综合症(Anton'ssyndrome),或称"失明否认症"。病人显然看不见东西,但并不知道这个事实[8]。当让他描述医生的领带时,病人会说那是一条有红色斑点的蓝色领带,而事实上医生根本没戴领带,进一步追问病人,他会主动告诉你房间的灯显得有些暗。 最初,这种情况显得不可能是真的。医学诊断是歇斯底里症,但这并没多大帮助。不过考虑如下的可能性。我经常发现,当我与从未见过面的人通过电话交谈时,我会在脑海里自然而然地形成他(或她)的外貌的粗略影像。我曾经和一个男子进行过多次电话长谈,我想像他有五十来岁,相当瘦,戴着度数很深的眼镜。当他终于来看我时我发现他只有三十多岁,明显发胖。我对他的外貌感到很惊讶,这才使我意识到我原来把他想像成别的样子了。 我猜想那些失明否认症患者产生了这种影像。或许是由于脑损伤导致这些影像不必与来自眼睛的正常视觉输入竞争。此外,在正常人脑中可能有某些重要机能可以提醒它们某些影像是错的,而这些患者由于其他部位的损伤而丧失了这些机能。这种解释是否正确尚有待研究,但它至少使得这种情况显得并不完全难以理解。 在不同的皮层区域对损伤的反应中是否有某些趋势呢?达马西欧指出,在人的颞区(头的两侧)靠近头后部的脑损伤与更靠近前部损伤的特点不同[9]。靠近颞叶后部(或是其后的枕叶,见图27)的损伤与概念性东西有关。如果损伤靠近前部,对概念的影响逐渐变小,直到海马附近,主要丧失的是与特定事件有关。这样,概念与事件记忆间的区别①非常显著。可能在处理一般物体和事件的区域与仅仅处理其中一种的区域问有一种逐渐的转变。 达马西欧的建议与我对单个皮层区的功能的描述是一致的。对于每个皮层区而言,其他区域(通常是等级更低的)有输入到达它的中间各层;该皮层区把这些区域提取的特征组合构造成新的特征。 例如,当你沿视觉等级向上走时,你会从皮层v1区出发。v1区处理相当简单的视觉特征(如有朝向的直线)。这些特征无时不出现。然后你到达处理诸如脸这类不那么频繁出现的复杂目标的区域,直到与海马相联系的皮层(图52的顶端),这里检测的组合信号(包括视觉及其他信号)大多对应于唯一的事件。 至此,我们之前的讨论足以建立两个普适要点:这些受损坏的视觉系统以一种奇怪而神秘的方式工作,它的行为与科学家所发现的关于猕猴和我们自己的视觉系统的连接方式和行为并不矛盾。 然而我们的任务是理解视觉意识。它是构建视觉影像所必需的许多复杂处理的结果。是否有某些形式的脑损伤对意识本身有更直接的影响呢?现已发现确实有一些。 第一种通常被称为"裂脑"。其最彻底的形式是胼胝体(连接大脑两侧皮层区的一大束神经纤维)以及称作"前连合"的一小束纤维被完全切除。在对癫痈病人的一般治疗失败后,为减轻其病症,会进行这种外科手术。其他形式的脑损伤也会导致病人失去胼胝体,但此时通常在脑其他部位也有额外损伤,因而无法像这样直截了当地解释结果。也有些人生来就没有胼胝体,但脑在发育过程中常能在某种程度上补偿早期的缺陷,因而结果并不如手术情况那样明显。 这个主题的历史十分奇特,因而值得作一简要叙述。一位著名的美国神经外科医生在1936年报告说,胼胝体被切除后并无症状。50年代中期,另一位专家在回顾实验结果时写道:"胼胝体几乎不能与心理学功能联系到一起。"卡尔·拉什利(KarlLashley,一位聪明而有影响的美国神经科学家。奇怪的是,他几乎总是错的)则走得更远,曾开玩笑他说,胼胝体的唯一功能是防止两个半球坍塌到一起。(胼胝体显得有些硬,因此得名。胼胝有硬皮的意思。)我们现在知道这些观点是完全错误的。造成这种错误部分是由于胼胝体并不总被完全切除,但主要是因为检测手段不敏感或不恰当。 罗杰·斯佩里(Roger Sperry)和同事们在五六十年代的工作使得情况明显改善。由于此项工作斯佩里获得了1981年诺贝尔奖。通过仔细设计的实验,他们清楚地表明,当一只猫或猴子的脑被分成两半时,可以教它的一侧半球学会一种反应,而另一半球则学会另一种、甚至是对相同情况的完全矛盾的反应。正如斯佩里所说,"这就好像动物有两个独立的脑。"① 为什么会这样呢?对大多数习惯于用右手的人而言,只有左半球能说话或通过写字进行交流。对于与语言相关的大多数能力也是如此,尽管右半球能在很有限的程度上理解口语,或许还能处理说话的音韵。当胼胝体被切除后,左半球只能看到视野右边的一半,而右半球则只能看到左边的一半。每只手主要是由对侧半球控制,但同侧半球能控制手或手臂做某些比较粗糙的运动。除了特殊情况,每个半球都能听到说话。 刚进行完手术的病人可能经历各种瞬时效应。例如,他的两只手所做的目的正好相反,一只手扣上衬衣的扣子,而另一只手则随后将其解开。这种行为通常会减弱,病人显得比较正常。但更细致的检查揭示了更多的东西。 在实验中,病人被要求把凝视点固定在一个屏幕上。屏幕上会有一个图像在他的凝视点的左侧或右侧闪烁。这样可以保证视觉信息仅到达两个半球中的一个。现在有更加精心设计的方法可以做到这一点。 当一个闪烁的图片到达能使用语言的左半球,他就能像正常人一样描述它。这种功能并不仅限于语言表达。病人也能按要求不说话而用右手指向目标(右手主要由左半球控制)。他还能不看一个物体而用右手识别它。 然而,如果闪烁图片到达了不能使用语言的右半球,结果则大不一样。左手主要由这个不能用语言的半球控制,它能指向物体,也能通过触摸识别没看见的物体,这和右手所能做的是一样的。但当病人被问及为什么他的左手有这种特殊方式的行为时,他会依照能用语言表达的左半球所看见的场景虚构一个解释,但这并不是右半球所看见的。实验者知道真正闪烁进入那个不能使用语言的半球以产生行为的物体是什么,因而可以看出这些解释是错误的。这是一个"虚构症"的很好的例子。 简单他说,看来脑的一半几乎完全忽略另一半所看见的。只有极少的信息有时会漏到对侧。在给一位妇女的右半球闪现一系列照片时,迈克尔·伽扎尼加(MichaeI Gazzaniga)加入了一张裸体照片。这使得病人有些脸红。她的左半球并不能察觉那些照片的内容,但知道它使她脸红,因此她说:"医生,你是不是给我显示了一些很有趣的照片?"过了一会病人学会了向另一侧半球提供一些交叉线索;例如,用左手以某种方式发信号从而使能用语言的半球能够识别该信号。对于正常人而言,右半球的详细的视觉意识能够很容易地传到左半球,因而能用语言描述它,胼胝体被完全切除后,这些信息无法传到能用语言的半球。该信息无法通过脑中的各种低层次的连接传到对侧。 请注意,除了提到语言通常在左脑外,我并未涉及脑的两半有什么差异。我不必关心右侧脑是否有某些特殊能力,例如它十分擅长识别面孔。我也不必考虑某些人的一种极端的观点,他们认为左侧具有"人"的特性,而右侧则仅仅是自动机。显然右侧缺乏发展完善的语言系统,因而从某种意义上说不那么具有"人类"的特点——因为语言是唯一标志人类的能力。事实上我们需要回答右侧是否高于自动机这个问题,但我觉得应该稍作等待,直到我们更好地理解意识的神经机制,否则我们不能很好地作出回答,更不必说自由意志问题了。折衷的职业观点强调,除了语言外,两侧的感知和运动能力虽不完全相同,但一般特征是一致的。 大多数切开脑的手术并不切断两侧上丘的顶盖间连合(在第十章 叙述)。脑无法利用这个未触及的通路从一侧向另一侧传递视觉意识信息。因此尽管上丘参与了视觉注意过程,它似乎不像是意识的位置。 另一个引人注目的现象被称为"盲视"。牛津的心理学家拉里·威斯克兰兹(Larry Wriskrantz)在这方面作了广泛的研究。盲视病人能指出并区分某些非常简单的物体,但同时又否认能看见它们。① 盲视通常是由于初级视觉V1区(纹状皮层)受到大面积损伤而引起的,在许多病例中损伤仅出现在头部的一侧。在实验中,一行小灯呈水平排列,使得病人在凝视这些灯光的一端时,它们全部落在视野的盲区。在一声警告的蜂鸣声之后有一盏灯会短时间点亮,而此时病人不能转动眼睛或头。要求病人指出哪盏灯被点亮了。病人通常对此表示异议,说既然他看不见那里的东西,没必要做这个实验。经过短暂的劝说之后,他会打算试一下并作"猜测"。实验会重复多次,有时这盏灯被点亮,有时则是另一盏。结果病人大感惊讶,尽管他否认看见了任何东西,却能相当准确地指出亮的那盏灯,误差一般不超过5到10度。② 有些病人还能区分简单的形状,比如X和O,只要它们足够大。有些人还能鉴别直线的朝向和闪烁。有人声称有两个病人能调节手的形状,使之与即将触摸到的目标的形状和大小相匹配,同时却否认看到了这个物体。某些情况下病人的眼睛能跟踪运动条纹,但这个任务或许是由脑的其他部分(如上丘)完成的。病人的瞳孔也能对光强作出反应,因为瞳孔的大小不是随意的,而是由另一个小的脑区控制的。 因此,尽管V1区受到严重损坏,病人会坚决否认察觉到了这些刺激,但脑仍能探测到某些相当简单的视觉刺激,并能采取相应的行动。 目前还不清楚这其中涉及的神经通路。最初猜测信息是通过"古脑"(Oldbrain)的一部分即上丘传递的,现在看来远不止如此,因为最新的实验表明眼视锥细胞参与了盲视对光波长的反应。他们对不同波长的反应与正常人相似,只是所需的光更亮些。在上丘没发现对颜色敏感的神经元,因此它不会是唯一的通道。 这个问题很复杂,因为皮层Vl区的损伤最终会导致侧膝体(丘脑的中继站)对应部位的细胞大量死亡,继而这又将杀死大量的视网膜P型神经节细胞,因为就像隐士一样,它们没有可以交谈的对象①。然而,某些P型神经元保留下来,就像侧膝体相关区域的一些神经元一样,可能是因为它们投射到了某些未受损害的部位。从侧膝体有直接但弱的通路到达Vl区以上的皮层区,诸如V4区。这些通路可能保留足够完好,足以产生运动输出(例如,能够指出目标),但尚不足以产生视觉意识(参见第十五章 讨论的里贝特的工作)。有些启发性的证据表明在V1区损伤的部位中有一些未被触及的组织形成的小岛,因而V1区在这些区域仍能起一定作用,虽然这种作用可能比较小,或者最终发现由于别的原因,一个完整的V1区对意识是必需的,而不仅仅是因为通常它产生了到高级视觉区域的输入。不管这个理由是什么,病人在否认看见任何东西的同时确实能利用一些视觉信息。 另一种让人感兴趣的行为形式是在一些面容失认症患者身上发现的。当病人与测谎器连起来并面对一组熟悉的和不熟悉的面孔时,他们无法说出哪些面孔是他们熟悉的,但是测谎器清晰地显示出脑正在作出这种鉴别,只是病人不知道罢了。这里我们再次遇到了这种情况,脑可以不觉察一个视觉特征却能作出反应。 海马是脑的一部分,实际上它并不仅限于视觉,而与一种记忆类型有关。它在图52的顶端,标志为HC①。图中还画出了它与皮层的一部分称作"内嗅皮层"(图中标为ER)的连接。它的层数比大多数新皮层少。因为它的位置靠近感觉处理等级的顶端,人们禁不住猜测这里终于是视觉(及其他)意识的真正位置。它从许多更高的皮层区接受输入并投射回去。这种复杂的单向通路是再进入的——即,它返回到离出发点很近的地方——这或许也暗示着它是意识的所在之处,因为脑可能使用这条通路去反映它自己。 这种假设看来很吸引人,但是遭到了实验证据的强烈反对。海马损伤可能由一种病毒性疤疹脑炎感染造成,这种病会造成相当严重、但有时很有限的损坏。看来病毒易于攻击海马及与其相联系的皮层。损伤的边界会很清晰。由于损伤可用删扫描定位且不再发展,病人在感染严重期过后数年均可进行复查。 如果你碰巧遇到一个失去两侧海马以及邻近皮层区域的人,你并不会马上意识到他有何异常。看了这样一盘录像带你一定会感到吃惊。其中讲述了一个人,他能谈话,微笑,喝咖啡,下棋,等等。他几乎只有一个问题,那就是他不能记住大约一分钟以前发生的任何事件。在相互介绍时他会和你握手,复述你的名字,并进行交谈。但如果你暂时离开房间,过几分钟后再返回,他会否认曾经见过你。他的运动技巧均被保留,还能学习新技术,并通常能保持数年甚至更长,只是他记不起来是什么时候学会这些技艺的。他对分类的记忆是完好的,但他对新事物的记忆仅能维持极短的时间,随后就几乎完全丧失了。他在回忆脑损伤前发生的事情时也有障碍。简而言之,他知道早餐一词的含义,也懂得如何吃早餐,但他对吃过什么东西几乎没任何印象。如果你问他,他或许会告诉你他不记得了,或者会瞎聊,并描述他认为他可能吃了些什么。 虽然从某种意义上说他失去了全部人类"意识",但看来他的短时视觉意识并未改变。如果它受到了损伤,也只会是一种实验尚未揭示的细微方式。因此海马及其紧密相关的皮层区域并不是形成视觉意识所必需的。然而,流入和流出的信息通常有可能到达意识状态,因而有理由留意一下其中的神经区域和通路。这或许对找出脑中意识的位置有所帮助。 对脑损伤的研究能得到一些其他方式无法得到的结果。遗憾的是,由于大多数情况下损伤是极复杂的,这些知识时常很模糊,令人着急。尽管有这些局限性,在顺利的情况下信息是明确的。脑损伤的结果至少能对脑的工作提供暗示,而这些可以用其他方法在人或动物身上探测到。在某些情况下,它证实了某些在猴子身上进行的实验所得到的结果在人身上也适用。 ①这些在动物身上取得的结果导致人们对脑分裂的病人进行更加仔细的检查。这些工作特别是由斯佩里、约瑟夫·伯根(Joseph Bogen).迈克尔·伽扎尼加(Michael Gazzaniga)、欧兰(Eran)、戴利亚·蔡德尔(Dahlia Zaldel)和他们的同事们开展的。 ①在猴子身上进行了大量的平行工作,但在这里我并不打算叙述它们。 ②实际上这个结果遇到了怀疑。例如,一种反对意见是,引起这种行为的原因是:眼睛把光散射到视网膜的其他位置,对应于病人可见的视野。但似乎并非如此,特别是现在表明照射到盲点的光不能产生这种效应。(回想一下,在盲点没有光感受器,因此不会对光反应。另一方面,盲视病人的光感受器是完好的,并能检测信号。最初损伤的是视皮层。)进一步的实验已经回答了所有这些反对意见,目前对于盲视是个真实的现象已没什么可怀疑的了。 ①如果一个神经元的所有输出只到达死亡的神经元,它本身往往也会死去。 "……我相信,对一个模型的最好的检验是它的设计者能否回答这些问题:'现在你知道哪些原本不知道的东西?'以及'你如何证明它是否是对的?'" ——詹姆斯·鲍尔(James M.Bower) 神经网络是由具有各种相互联系的单元组成的集合。每个单元具有极为简化的神经元的特性。神经网络常常被用来模拟神经系统中某些部分的行为,生产有用的商业化装置以及检验脑是如何工作的一般理论。 神经科学家们究竟为什么那么需要理论呢?如果他们能了解单个神经元的确切行为,他们就有可能预测出具有相互作用的神经元群体的特性。令人遗憾的是,事情并非如此轻而易举。事实上,单个神经元的行为通常远不那么简单,而且神经元几乎总是以一种复杂的方式连接在一起。此外,整个系统通常是高度非线性的。线性系统,就其最简单形式而言,当输入加倍时,它的输出也严格加倍——即输出与输入呈比例关系。①例如,在池塘的表面,当两股行进中的小湍流彼此相遇时,它们会彼此穿过而互不干扰。为了计算两股小水波联合产生的效果,人们只需把第一列波与第二列波的效果在空间和时间的每一点上相加即可。这样,每一列波都独立于另一列的行为。对于大振幅的波则通常不是这样。物理定律表明,大振幅情况下均衡性被打破。冲破一列波的过程是高度非线性的:一旦振幅超过某个阈值,波的行为完全以全新的方式出现。那不仅仅是"更多同样的东西",而是某些新的特性。非线性行为在日常生活中很普遍,特别是在爱情和战争当中。正如歌中唱的:"吻她一次远不及吻她两次的一半那么美妙。" 如果一个系统是非线性的,从数学上理解它通常比线性系统要困难得多。它的行为可能更为复杂。因此对相互作用的神经元群体进行预测变得十分困难,特别是最终的结果往往与直觉相反。 高速数字计算机是近50年来最重要的技术发展之一。它时常被称作冯.诺依曼计算机,以纪念这位杰出的科学家、计算机的缔造者。由于计算机能像人脑一样对符号和数字进行操作,人们自然地想像脑是某种形式相当复杂的冯·诺依曼计算机。这种比较,如果陷入极端的话,将导致不切实际的理论。 计算机是构建在固有的高速组件之上的。即便是个人计算机,其基本周期,或称时钟频率,也高于每秒1000万次操作。相反地,一个神经元的典型发放率仅仅在每秒100个脉冲的范围内。计算机要快上百万倍。而像克雷型机那样的高速超级计算机速度甚至更高。大致说来,计算机的操作是序列式的,即一条操作接着一条操作。与此相反,脑的工作方式则通常是大规模并行的,例如,从每只眼睛到达脑的轴突大约有100万个,它们全都同时工作。在系统中这种高度的并行情况几乎重复出现在每个阶段。这种连线方式在某种程度上弥补了神经元行为上的相对缓慢性。它也意味着即使失去少数分散的神经元也不大可能明显地改变脑的行为。用专业术语讲,脑被称作"故障弱化"(degrade gracefully)。而计算机则是脆弱的,哪怕是对它极小的损伤,或是程序中的一个小错误,也会引起大的灾难。计算机中出现错误则是灾难性的(degrade catastrophically)。 计算机在工作中是高度稳定的。因为其单个组件是很可靠的,当给定相同的输入时通常产生完全同样的输出。反之,单个神经元则具有更多的变化。它们受可以调节其行为的信号所支配,有些特性边"计算"边改变。 一个典型的神经元可能具有来自各处的上百乃至数万个输入,其轴突又有大量投射。而计算机的一个基本元件——晶体管,则只有极少数的输入和输出。 在计算机中,信息被编码成由0和1组成的脉冲序列。计算机通过这种形式高度精确地将信息从一个特定的地方传送到另一个地方。信息可以到达特定的地址,提取或者改变那里所贮存的内容。这样就能够将信息存入记忆体的某个特殊位置,并在以后的某些时刻进一步加以利用。这种精确性在脑中是不会出现的。尽管一个神经元沿它的轴突发送的脉冲的模式(而不仅仅是其平均发放率)可能携带某些信息,但并不存在精确的由脉冲编码的信息。①这样,记忆必然将以不同的形式"存贮"。 脑看起来一点也不像通用计算机。脑的不同部分,甚至是新皮层的不同部分,都是专门用来处理不同类型的信息的(至少在某种程度上是这样的)。看来大多数记忆存贮在进行当前操作的那个地方。所有这些与传统的冯·诺依曼计算机完全不同,因为执行计算机的基本操作(如加法.乘法等等)仅在一个或少数几个地方,而它的记忆却存贮在许多很不同的地方。 最后,计算机是由工程师精心设计出来的,而脑则是动物经自然选择一代又一代进化而来的。这就产生了如第一章 所述的本质上不同的设计形式。 人们习惯于从硬件和软件的角度来谈论计算机。由于人们编写软件(计算机程序)时几乎不必了解硬件(回路等)的细节,所以人们——特别是心理学家——争论说没必要了解有关脑的"硬件"的任何知识。实际上想把这种理论强加到脑的操作过程中是不恰当的,脑的硬件与软件之间并没有明显的差异。对于这种探讨的一种合理的解释是,虽然脑的活动是高度并行的,在所有这些平行操作的顶端有某些形式的(由注意控制的)序列机制,因而,在脑的操作的较高层次,在那些远离感觉输入的地方,可以肤浅地说脑与计算机有某种相似之处。 人们可以从一个理论途径的成果来对它作判断。计算机按编写的程序执行,因而擅长解决诸如大规模数字处理、严格的逻辑推理以及下棋等某些类型的问题。这些事情大多数人都没有它们完成得那么快、那么好。但是,面对常人能快速、不费气力就能完成的任务,如观察物体并理解其意义,即便是最现代的计算机也显得无能为力。 近几年在设计新一代的、以更加并行方式工作的计算机方面取得了重要进展。大多数设计使用了许多小型计算机,或是小型计算机的某些部件。它们被连接在一起,并同时运行。由一些相当复杂的设备来处理小计算机之间的信息交换并对计算进行全局控制。像天气预测等类似问题,其基本要素在多处出现。此时超级计算机特别有用。 人工智能界也采取了行动设计更具有脑的特点的程序。他们用一种模糊逻辑取代通常计算中使用的严格的逻辑。命题不再一定是真的或假的,而只需是具有更大或更小的可能性。程序试图在一组命题中发现具有最大可能性的那种组合,并以之作为结论,而不是那些它认为可能性较小的结论。 在概念的设置上,这种方法确实比早期的人工智能方法与脑更为相像,但在其他方面,特别是在记忆的存贮上,则不那么像脑。因此,要检查它与真实的脑在所有层次上行为的相似性可能会有困难。 一群原先很不知名的理论工作者发展了一种更具有脑的特性的方法。如今它被称为PDP方法(即平行分布式处理)。这个话题有很长的历史,我只能概述一二。在1943年沃仑·麦卡洛克(Warrenc Mc Culloch)和沃尔特·皮兹(Walter Pitts)的工作是这方面最早的尝试之一。他们表明,在原则上由非常简单的单元连接在一起组成的"网络"可以对任何逻辑和算术函数进行计算。因为网络的单元有些像大大简化的神经元,它现在常被称作"神经网络"。 这个成就非常令人鼓舞,以致它使许多人受到误导,相信脑就是这样工作的。或许它对现代计算机的设计有所帮助,但它的最引人注目的结论就脑而言则是极端错误的。 下一个重要的进展是弗兰克·罗森布拉特(Frank Rosenblatt)发明的一种非常简单的单层装置,他称之为感知机(Perceptron)。意义在于,虽然它的连接最初是随机的,它能使用一种简单而明确的规则改变这些连接,因而可以教会它执行某些简单的任务,如识别固定位置的印刷字母。感知机的工作方式是,它对任务只有两种反应:正确或是错误。你只需告诉它它所作出的(暂时的)回答是否正确。然后它根据一种感知机学习规则来改变其连接。罗森布拉特证明,对于某一类简单的问题——"线性可分"的问题——感知机通过有限次训练就能学会正确的行为。 由于这个结果在数学上很优美,从而吸引了众人的注目。只可惜它时运不济,它的影响很快就消退了。马文·明斯基(Mar Vin Minsky)和西摩·佩伯特(Segmour Papert)证明感知机的结构及学习规则无法执行"异或问题"(如,判断这是苹果还是桔子,但不是二者皆是),因而也不可能学会它。他们写了一本书,通篇详述了感知机的局限性。这在许多年内扼杀了人们对感知机的兴趣(明斯基后来承认做得过分了)。此问大部分工作将注意力转向人工智能方法。① 用简单单元构建一个多层网络,使之完成简单的单层网络所无法完成的异或问题(或类似任务),这是可能的。这种网络必定具有许多不同层次上的连接,问题在于,对哪些最初是随机的连接进行修改才能使网络完成所要求的操作。如果明斯基和佩伯特为这个问题提供了解答,而不是把感知机打入死路的话,他们的贡献会更大些。 下一个引起广泛注意的发展来自约翰·霍普菲尔德(John Hop-field),一位加利福尼亚州理工学院的物理学家,后来成为分子生物学家和脑理论家。1982年他提出了一种网络,现在被称为霍普菲尔德网络(见图53)。这是一个具有自反馈的简单网络。每个单元只能有两种输出:一1(表示抑制)或十1(表示兴奋)。但每个单元具有多个输入。每个连接均被指派一个特定的强度。在每个时刻单元把来自它的全部连接的效果(2)总和起来。如果这个总和大于0则置输出状态为十1(平均而言,当单元兴奋性输入大于抑制性输人时,则输出为正),否则就输出一1。有些时候这意味着一个单元的输出会因为来自其他单元的输入发生了改变而改变。 尽管如此,仍有不少理论工作者默默无闻地继续工作。这其中包括斯蒂芬.格罗斯伯格(stephen Grossberg),吉姆·安德森(Jim Anderson),托伊沃.科霍宁(Teuvo Kohonen)和戴维·威尔肖(Devid Willshaw)。(2)每个输入对单元的影响是将当前的输入信号(+1或-1)与其相应的权值相乘而得到的。(如果当前信号是-1,权重是+2,则影响为-2。) 计算将被一遍遍地反复进行,直到所有单元的输出都稳定为止。①在霍普菲尔德网络中,所有单元的状态并不是同时改变的,而是按随机次序一个接一个进行,霍普菲尔德从理论上证明了,给定一组权重(连接强度)以及任何输入,网络将不会无限制地处于漫游状态,也不会进入振荡,而是迅速达到一个稳态。① 霍普菲尔德的论证令人信服,表达也清晰有力。他的网络对数学家和物理学家有巨大的吸引力,他们认为终于找到了一种他们可以涉足脑研究的方法(正如我们在加利福尼亚州所说的)。虽然这个网络在许多细节上严重违背生物学,但他们并不对此感到忧虑。 如何调节所有这些连接的强度呢?194年,加拿大心理学家唐纳德·赫布(Donald Hebb)出版了《行为的组织》一书。当时人们就像现在一样普遍相信,在学习过程中,一个关键因素是神经元的连接(突触)强度的调节。赫布意识到,仅仅因为一个突触是活动的,就增加其强度,这是不够的。他期望一种只在两个神经元的活动相关时才起作用的机制。他的书中有一个后来被广泛引用的段落:"当细胞A的一个轴突和细胞B很近,足以对它产生影响,并且持久地、不断地参与了对细胞B的兴奋,那么在这两个细胞或其中之一会发生某种生长过程或新陈代谢变化,以致于A作为能使B兴奋的细胞之一,它的影响加强了。"这个机制以及某些类似规则,现在称为"赫布律"。 霍普菲尔德在他的网络中使用了一种形式的赫布规则来调节连接权重。对于问题中的一种模式,如果两个单元具有相同的输出,则它们之间的相互连接权重都设为+1。如果它们具有相反的输出,则两个权重均设为-1。大致他说,每个单元激励它的"朋友"并试图削弱它的"敌人"。 霍普菲尔德网络是如何工作的呢?如果网络输入的是正确的单元活动模式,它将停留在该状态。这并没有什么特别的,因为此时给予它的就是答案。值得注意的是,如果仅仅给出模式的一小部分作为"线索",它在经过短暂的演化后,会稳定在正确的输出即整个模式上,在不断地调节各个单元的输出之后,网络所揭示的是单元活动的稳定联系。最终它将有效地从某些仅仅与其存贮的"记忆"接近的东西中恢复出该记忆,此外,这种记忆也被称作是按"内容寻址"的——即它没有通常计算机中具有的分离的、唯一用于作为"地址"的信号。输入模式的任何可察觉的部分都将作为地址。这开始与人的记忆略微有些相似了。 请注意记忆并不必存贮在活动状态中,它也可以完全是被动的,因为它是镶嵌在权重的模式之中的即在所有各个单元之间的连接强度之中。网络可以完全不活动(所有输出置为0),但只要有信号输入,网络突然活动起来并在很短时间内进入与其应当记住的模式相对应的稳定的活动状态。据推测,人类长期记忆的回忆具有这种一般性质(只是活动模式不能永久保持)。你能记住大量现在一时想不起来的事情。 神经网络(特别是霍普菲尔德网络)能"记住"一个模式,但是除此以外它还能再记住第二个模式吗?如果几个模式彼此不太相似,一个网络是能够全部记住这几个不同模式,即给出其中一个模式的足够大的一部分,网络经过少数几个周期后将输出该模式。因为任何一个记忆都是分布在许多连接当中的,所以整个系统中记忆是分布式的。因为任何一个连接都可能包含在多个记忆中,因而记忆是可以叠加的。此外,记忆具有鲁棒性,改变少数连接通常不会显著改变网络的行为。 为了实现这些特性就需要付出代价,这不足为奇。如果将过多的记忆加到网络之中则很容易使它陷入混乱。即使给出线索,甚至以完整的模式作为输入,网络也会产生毫无意义的输出。① 有人提出这是我们做梦时出现的现象(弗洛伊德称之为"凝聚"——condensation),但这是题外话。值得注意的是,所有这些特性是"自然发生"的。它们并不是网络设计者精心设置的,而是由单元的本性、它们连接的模式以及权重调节规则所决定的。 霍普菲尔德网络还有另一个性质,即当几个输人事实上彼此大致相似时,在适当计算网络的连接权重后,它"记住"的将是训练的模式的某种平均。这是另一个与脑有些类似的性质。对我们人类而言,当我们听某个特定的声调时,即便它在一定范围内发生变化,我们也会觉得它是一样的。输入是相似但不同的,而输出——我们所听到的——则是一样的。 这些简单网络是不能和脑的复杂性相提并论的,但这种简化确实使我们可能对它们的行为有所了解,即使是简单网络中出现的特点也可能出现在具有相同普遍特性的更复杂的网络中,此外,它们向我们提供了多种观点,表明特定的脑回路所可能具有的功能。例如,海马中有一个称为CA3的区域,它的连接事实上很像一个按内容寻址的网络。当然,这是否正确尚需实验检验。 有趣的是,这些简单的神经网络具有全息图的某些特点。在全息图中,几个影像可以彼此重叠地存贮在一起;全息图的任何一部分都能用来恢复整个图像,只不过清晰度会下降;全息图对于小的缺陷是鲁棒的。对脑和全息图两者均知之甚少的人经常会热情地支持这种类比。几乎可以肯定这种比较是没有价值的。原因有两个。详细的数学分析表明神经网络和全息图在数学上是不同的。更重要的是,虽然神经网络是由那些与真实神经元有些相似的单元构建的,没有证据表明脑中具有全息图所需的装置或处理过程。(1) 一本更新的书产生了巨大的冲击力,这就是戴维·鲁梅尔哈特(David Rumelhart)、詹姆斯·麦克莱兰(James Mc Clelland)和PDP小组所编的一套很厚的两卷著作《平行分布式处理》(1)。该书于1986年问世,并很快至少在学术界成为最畅销书。名义上我也是PDP小组的成员,并和浅沼智行(Chiko Asanuma)合写了其中的一个章节。不过我起的作用很小。我几乎只有一个贡献,就是坚持要求他们停止使用神经元一词作为他们网络的单元。 加利福尼亚州立大学圣迭戈分校心理系离索尔克研究所仅有大约一英里。在70年代末80年代初我经常步行去参加他们的讨论小组举行的小型非正式会议。那时我时常漫步的地方如今已变成了巨大的停车场。生活的步伐越来越快,我现在已改为驱车飞驰于两地之间了。 研究小组当时是由鲁梅尔哈特和麦克莱兰领导的,但是不久麦克莱兰就离开前往东海岸了。他们俩最初都是心理学家,但他们对符号处理器感到失望并共同研制了处理单词的"相互作用激励器"的模型。在克里斯托夫·朗格特-希金斯(Christopher Longuet-Higgins)的另一位学生杰弗里·希尔顿(Geoffrey Hinton)的鼓励下,他们着手研究一个更加雄心勃勃的"联结主义"方案。他们采纳了平行分布式处理这个术语,因为它比以前的术语——联想记忆②——的覆盖面更广。 在人们发明网络的初期,一些理论家勇敢地开始了尝试。他们把一些仍显笨拙的小型电子回路(其中常包括有老式继电器)连接在一起来模拟他们的非常简单的网络。现在已发展出了复杂得多的神经网络,这得益于现代计算机的运算速度得到了极大的提高,也很便宜。现在可以在计算机(这主要是数字计算机)上模拟检验关于网络的新思想,而不必像早期的研究那样仅靠粗糙的模拟线路或是用相当困难的数学论证。 1986年出版的《平行分布式处理》一书从1981年底开始经过了很长时间的酝酿。这很幸运,因为它是一个特殊算法的最新发展(或者说是它的复兴或应用),在其早期工作基础上,很快给人留下了深刻的印象。该书的热情读者不仅包括脑理论家和心理学家,还有数学家、物理学家和工程师,甚至有人工智能领域的工作者。不过后者最初的反应是相当敌视的。最终神经科学家和分子生物学家也对它的消息有所耳闻。 该书的副标题是"认知微结构的探索"。它是某种大杂烩,但是其中一个的特殊的算法产生了惊人的效果。该算法现在称作"误差反传算法",通常简称为"反传法"。为了理解这个算法,你需要知道一些关于学习算法的一般性知识。 在神经网络有些学习形式被称作是"无教师的"。这意味着没有外界输入的指导信息。对任何连接的改变只依赖于网络内部的局部状态。简单的赫布规则具有这种特点。与之相反,在有教师学习中,从外部向网络提供关于网络执行状况的指导信号。 无教师学习具有很诱人的性质,因为从某种意义上说网络是在自己指导自己。理论家们设计了一种更有效的学习规则,但它需要一位"教师"来告诉网络它对某些输入的反应是好、是差还是很糟。这种规则中有一个称作"δ律"。 训练一个网络需要有供训练用的输入集合,称作"训练集"。很快我们在讨论网络发音器(NET talk)时将看到一个这样的例子。这有用的训练集必须是网络在训练后可能遇到的输入的合适的样本。通常需要将训练集的信号多次输入,因而在网络学会很好地执行之前需要进行大量的训练。其部分原因是这种网络的连接通常是随机的。而从某种意义上讲,脑的初始连接是由遗传机制控制的,通常不完全是随机的。 网络是如何进行训练的呢?当训练集的一个信号被输入到网络中,网络就会产生一个输出。这意味着每个输出神经元都处在一个特殊的活动状态。教师则用信号告诉每个输出神经元它的误差,即它的状态与正确之间的差异,δ这个名称便来源于这个真实活动与要求之间的差异(数学上δ常用来表示小而有限的差异)。网络的学习规则利用这个信息计算如何调整权重以改进网络的性能。 Adaline网络是使用有教师学习的一个较早的例子。它是1960年由伯纳德·威德罗(Bernard Widrow)和霍夫(M.E.Hoff)设计的,因此δ律又称作威德罗-霍夫规则。他们设计规则使得在每一步修正中总误差总是下降的。①这意味着随着训练过程网络最终会达到一个误差的极小值。这是毫无疑问的,但还不能确定它是真正的全局极小还是仅仅是个局域极小值。用自然地理的术语说就是,我们达到的是一个火山口中的湖,还是较低的池塘。海洋,还是像死海那样的凹下去的海(低于海平面的海)? 训练算法是可以调节的,因而趋近局域极小的步长可大可小。如果步长过大,算法会使网络在极小值附近跳来跳去(开始时它会沿下坡走,但走得太远以致又上坡了)。如果步子小,算法就需要极长的时间才能达到极小值的底端。人们也可以使用更精细的调节方案。 反传算法是有教师学习算法中的一个特殊例子。为了让它工作,网络的单元需要具有一些特殊性质。它们的输出不必是二值的(即,或0,或者+1或-1),而是分成若干级。它通常在0到+1之间取值。理论家们盲目地相信这对应于神经元的平均发放率(取最大发放率为+1),但他们常常说不清应该在什么时候取这种平均。 如何确定这种"分级"输出的大小呢?像以前一样,每个单元对输入加权求和,但此时不再有一个真实的阈值。如果总和很小,输出几乎是0。总和稍大一些时,输出便增加。当总和很大时,输出接近于最大值。图54所示的S形函数(sigmoid函数)体现了这种输入总和与输出间的典型关系。如果将一个真实神经元的平均发放率视为它的输出,那么它的行为与此相差不大。 这条看似平滑的曲线有两个重要性质。它在数学上是"可微的",即任意一处的斜率都是有限的;反传算法正依赖于这个特性。更重要的是,这条曲线是非线性的,而真实神经元即是如此。当(内部)输入加倍时输出并不总是加倍。这种非线性使得它能处理的问题比严格的线性系统更加广泛。 现在让我们看一个典型的反传网络。它通常具有三个不同的单元层(见图55)。最底层是输入层。下一层被称作"隐单元"层,因为这些单元并不直接与网络外部的世界连接。最顶层是输出层。最底层的每个单元都与上一层的所有单元连接。中间层也是如此。网络只有前向连接,而没有侧向连接,除了训练以外也没有反向的投射。它的结构几乎不能被简化。 训练开始的时候,所有的权重都被随机赋值,因而网络最初对所有信号的反应是无意义的。此后给定一个训练输入,产生输出并按反传训练规则调节权重。过程如下:在网络对训练产生输出以后,告诉高层的每个单元它的输出与"正确"输出之间的差。单元利用该信息来对每个从低层单元达到它的突触的权重进行小的调整。然后它将该信息反传到隐层的每个单元。每个隐层单元则收集所有高层单元传未的误差信息,并以此调节来自最底层的所有突触。 从整体上看具体的算法使得网络总是不断调节以减小误差。这个过程被多次重复。(该算法是普适的,可以用于多于三层的前向网络。) 经过了足够数量的训练之后网络就可以使用了。此时有一个输入的测试集来检验网络。测试集是经过选择的,它的一般(统计)特性与训练集相似,但其他方面则不同。(权重在这个阶段保持不变,以便考察训练后网络的行为。)如果结果不能令人满意,设计者会从头开始,修改网络的结构、输入和输出的编码方式、训练规则中的参数或是训练总数。 所有这些看上去显得很抽象。举个例子或许能让读者清楚一些。特里·塞吉诺斯基和查尔斯·罗森堡(Charles Rosenberg)在1987年提供了一个著名的演示。他们把他们的网络称为网络发音器(NET talk)。它的任务是把书写的英文转化成英文发音。英文的拼法不规则,这使它成为一门发音特别困难的语言,因而这个任务并不那么简单易行。当然,事先并不把英语的发音规则清楚地告诉网络。在训练过程中,网络每次尝试后将得到修正信号,网络则从中学习。输入是通过一种特殊的方式一个字母接一个字母地传到网络中。NET talk的全部输出是与口头发音相对应的一串符号,为了让演示更生动,网络的输出与一个独立的以前就有的机器(一种数字发音合成器)耦合。它能将NET tallk的输出变为发音,这样就可以听到机器"朗读"英语了。 由于一个英语字母的发音在很大程度上依赖于它前后的字母搭配,输入层每次读入一串7个字母。①输出层中的单元与音素所要求的21个发音特征②相对应,还有5个单元处理音节分界和重音。图56给出了它的一般结构。③ 他们使用了两段文字的摘录来训练网络,每段文字都附有训练机器所需的标音法。第一段文字摘自梅里亚姆-韦伯斯特袖珍词典。第二段摘录则多少有些令人奇怪,是一个小孩的连续说话。初始权重具有小的随机值,并在训练期内每处理一个词更新一次。他们编写程序使得计算机能根据提供的输入和(正确的)输出信息自动地完成这一步。在对真实的输出进行判断时,程序会采纳一个与真实发音最接近的音素作为最佳猜测,通常有好几个"发音"输出单元对此有关系。 聆听机器学着"读"英语是一件令人着迷的事情。①最初,由于初始连接是随机的,只能听到一串令人困惑的声音。NET talk很快就学会了区分元音和辅音。但开始时它只知道一个元音和一个辅音,因此像在咿呀学语。后来它能识别词的边界,并能发出像词那样的一串声音。在对训练集进行了大约十次操作之后,单词变得清楚,读的声音也和幼儿说话很像了。 实际结果并不完美,在某种情况下英语发音依赖于词意,而NET talk对此一无所知。一些相似的发音通常引起混淆,如论文(thesis)和投掷(throw)的"th"音。把同一个小孩的另一段例文作为检测,机器完成得很好,表明它能把从相当小的训练集(1024个单词)中学到的推广到它从未遇到的新词上。②这称为"泛化"。 显然网络不仅仅是它所训练过的每一个单词的查询表。它的泛化能力取决于英语发音的冗余度。并不是每一个英语单词都按自己唯一的方式发音,虽然首次接触英语的外国人容易这样想。(这个问题是由于英语具有两个起源造成的,即拉丁语系和日尔曼语系,这使得英语的词汇十分丰富。) 相对于大多数从真实神经元上收集的资料而言,神经网络的一个优点在于在训练后很容易检查它的每一个隐单元的感受野。一个字母仅会激发少数几个隐单元,还是像全息图那样它的活动在许多隐单元中传播呢?答案更接近于前者。虽然在每个字母一发音对应中并没有特殊的隐单元,但是每个这种对应并不传播到所有的隐单元。 因此便有可能检查隐单元的行为如何成簇的(即具有相同的特性)。塞吉诺斯基和罗森堡发现"……最重要的区别是元音与辅音完全分离,然而在这两类之中隐单元簇具有不同的模式,对于元音而言,下一个重要的变量是字母,而辅音成簇则按照了一种混合的策略,更多地依赖于它们声音的相似性。" 这种相当杂乱的布置在神经网络中是典型现象,其重要性在于它与许多真实皮层神经元(如视觉系统中的神经元)的反应惊人地相似,而与工程师强加给系统的那种巧妙的设计截然不同。 他们的结论是: NET talk是一个演示,是学习的许多方面的缩影。首先,网络在开始时具有一些合理的"先天"的知识,体现为由实验者选择的输入输出的表达形式,但没有关于英语的特别知识——网络可以对任何具有相同的字母和音素集的语言进行训练。其次,网络通过学习获得了它的能力,其间经历了几个不同的训练阶段,并达到了一种显著的水平。最后,信息分布在网络之中,因而没有一个单元或连接是必不可少的,作为结果,网络具有容错能力,对增长的损害是故障弱化的。此外,网络从损伤中恢复的速度比重新学习要快得多。 尽管这些与人类的学习和记忆很相似,但NET talk过于简单,还不能作为人类获得阅读能力的一个好的模型。网络试图用一个阶段完成人类发育中两个阶段出现的过程,即首先是儿童学会说话;只有在单词及其含义的表达已经建立好以后,他们才学习阅读。同时,我们不仅具有使用字母-发音对应的能力,似乎还能达到整个单词的发音表达,但在网络中并没有单词水平的表达。注意到网络上并没有什么地方清楚地表达英语的发音规则,这与标准的计算机程序不同。它们内在地镶嵌在习得的权重模式当中。这正是小孩学习语言的方式。它能正确他说话,但对它的脑所默认的规则一无所知。① NET talk有几条特性是与生物学大为抵触的。网络的单元违背了一条规律,即一个神经元只能产生兴奋性或抑制性输出,而不会二者皆有。更为严重的是,照字面上说,反传算法要求教师信息快速地沿传递向前的操作信息的同一个突触发送回去。这在脑中是完全不可能发生的。试验中用了独立的回路来完成这一步,但对我而言它们显得过于勉强,并不符合生物原型。 尽管有这些局限性,NET talk展示了一个相对简单的神经网络所能完成的功能,给人印象非常深刻。别忘了那里只有不足500个神经元和2万个连接。如果包括(在前面的脚注中列出的)某些限制和忽略,这个数目将会大一些,但恐怕不会大10倍。而在每一侧新皮层边长大约四分之一毫米的一小块表面(比针尖还小)有大约5000个神经元。因而与脑相比,NET talk仅是极小的一部分。②所以它能学会这样相对复杂的任务给人印象格外深刻。 另一个神经网络是由西德尼·莱基(Sidney Lehky)和特里·塞吉诺斯基设计的。他们的网络所要解决的问题是在不知道光源方向的情况下试图从某些物体的阴影中推断出其三维形状(第四章 描述的所谓从阴影到形状问题)。对隐层单元的感受野进行检查时发现了令人吃惊的结果。其中一些感受野与实验中在脑视觉第一区(V1区)发现的一些神经元非常相似。它们总是成为边缘检测器或棒检测器,但在训练过程中,并未向网络呈现过边或棒,设计者也未强行规定感受野的形状。它们的出现是训练的结果。此外,当用一根棒来测试网络时,其输出层单元的反应类似于V1区具有端点抑制(end-stopping)的复杂细胞。 网络和反传算法二者都在多处与生物学违背,但这个例子提出了这样一个回想起来应该很明显的问题:仅仅从观察脑中一个神经元的感受野并不能推断出它的功能,正如第十一章 描述的那样,了解它的投射野,即它将轴突传向哪些神经元,也同样重要。 我们已经关注了神经网络中"学习"的两种极端情况:由赫布规则说明的无教师学习和反传算法那样的有教师学习。此外还有若干种常见的类型。一种同样重要的类型是"竞争学习"。①其基本思想是网络操作中存在一种胜者为王机制,使得能够最好地表达了输入的含义的那个单元(或更实际他说是少数单元)抑制了其他所有单元。学习过程中,每一步中只修正与胜者密切相关的那些连接,而不是系统的全部连接。这通常用一个三层网络进行模拟,如同标准的反传网络,但又有显著差异,即它的中间层单元之间具有强的相互连接。这些连接的强度通常是固定的,并不改变。通常短程连接是兴奋性的,而长程的则是抑制性的,一个单元倾向于与其近邻友好而与远处的相对抗。这种设置意味着中间层的神经元为整个网络的活动而竞争。在一个精心设计的网络中,在任何一次试验中通常只有一个胜者。 这种网络并没有外部教师。网络自己寻找最佳反应。这种学习算法使得只有胜者及其近邻单元调节输入权重。这种方式使得当前的那种特殊反应在将来出现可能性更大。由于学习算法自动将权重推向所要求的方向,每个隐单元将学会与一种特定种类的输入相联系。① 到此为止我们考虑的网络处理的是静态的输入,并在一个时间间隔后产生一个静态的输出。很显然在脑中有一些操作能表达一个时间序列,如口哨吹出一段曲调或理解一种语言并用之交谈。人们初步设计了一些网络来着手解决这个问题,但目前尚不深入。(NET talk确实产生了一个时间序列,但这只是数据传入和传出网络的一种方法,而不是它的一种特性。) 语言学家曾经强调,目前在语言处理方面(如句法规则)根据人工智能理论编写的程序处理更为有效。其本质原因是网络擅长于高度并行的处理,而这种语言学任务要求一定程度的序列式处理。脑中具有注意系统,它具有某种序列式的本性,对低层的并行处理进行操作,迄今为止神经网络并未达到要求的这种序列处理的复杂程度,虽然它应当出现。 真实神经元(其轴突、突触和树突)都存在不可避免的时间延迟和处理过程中的不断变化。神经网络的大多数设计者认为这些特性很讨厌,因而回避它们。这种态度也许是错的。几乎可以肯定进化就建立在这些改变和时间延迟上,并从中获益。 对这些神经网络的一种可能的批评是,由于它们使用这样一种大体上说不真实的学习算法,事实上它们并不能揭示很多关于脑的情况。对此有两种答案。一种是尝试在生物学看来更容易接受的算法,另一种方法更有效且更具有普遍性。加利福尼亚州立大学圣迭戈分校的戴维·齐帕泽(David Zipser),一个由分子生物学家转为神经理论学家,曾经指出,对于鉴别研究中的系统的本质而言,反传算法是非常好的方法。他称之为"神经系统的身份证明"。他的观点是,如果一个网络的结构至少近似于真实物体,并了解了系统足够多的限制,那么反传算法作为一种最小化误差的方法,通常能达到一个一般性质相似于真实生物系统的解。这样便在朝着了解生物系统行为的正确方向上迈出了第一步。 如果神经元及其连接的结构还算逼真,并已有足够的限制被加入到系统中,那么产生的模型可能是有用的,它与现实情况足够相似。这样便允许仔细地研究模型各组成部分的行为。与在动物上做相同的实验相比,这更加快速也更彻底。 我们必须明白科学目标并非到此为止,这很重要。例如,模型可能会显示,在该模型中某一类突触需要按反传法确定的某种方式改变。但在真实系统中反传法并不出现。因此模拟者必须为这一类突触找到合适的真实的学习规则。例如,那些特定的突触或许只需要某一种形式的赫布规则。这些现实性的学习规则可能是局部的,在模型的各个部分不尽相同。如果需要的话,可能会引入一些全局信号,然后必须重新运行该模型。 如果模型仍能工作,那么实验者必须表明这种学习方式确实在预测的地方出现,并揭示这种学习所包含的细胞和分子机制以支持这个观点。只有如此我们才能从这些"有趣"的演示上升为真正科学的有说服力的结果。 所有这些意味着需要对大量的模型及其变体进行测试。幸运的是,随着极高速而又廉价的计算机的发展,现在可以对许多模型进行模拟。这样人们就可以检测某种设置的实际行为是否与原先所希望的相同,但即便使用最先进的计算机也很难检验那些人们所希望的巨大而复杂的模型。 "坚持要求所有的模型应当经过模拟检验,这令人遗憾地带来了两个副产品。如果一个的假设模型的行为相当成功,其设计者很难相信它是不正确的。然而经验告诉我们,若干差异很大的模型也会产生相同的行为。为了证明这些模型哪个更接近于事实,看来还需要其他证据,诸如真实神经元及脑中该部分的分子的准确特性。 另一种危害是,对成功的模型过分强调会抑制对问题的更为自由的想像,从而会阻碍理论的产生。自然界是以一种特殊的方式运行的。对问题过于狭隘的讨论会使人们由于某种特殊的困难而放弃极有价值的想法。但是进化或许使用了某些额外的小花招来回避这些困难。尽管有这些保留,模拟一个理论,即便仅仅为了体会一下它事实上如何工作,也是有用的。 我们对神经网络能总结出些什么呢?它们的基础设计更像脑,而不是标准计算机的结构,然而,它们的单元并没有真实神经元那样复杂,大多数网络的结构与新皮层的回路相比也过于简单。目前,如果一个网络要在普通计算机上在合理的时间内进行模拟,它的规模只能很小。随着计算机变得越来越快,以及像网络那样高度并行的计算机的生产商业化,这会有所改善,但仍将一直是严重的障碍。 尽管神经网络有这些局限性,它现在仍然显示出了惊人的完成任务的能力。整个领域内充满了新观点。虽然其中许多网络会被人们遗忘,但通过了解它们,抓住其局限性并设计改进它们的新方法,肯定会有坚实的发展。这些网络有可能具有重要的商业应用。尽管有时它会导致理论家远离生物事实,但最终会产生有用的观点和发明。也许所有这些神经网络方面的工作的最重要的结果是它提出了关于脑可能的工作方式的新观点。 在过去,脑的许多方面看上去是完全不可理解的。得益于所有这些新的观念,人们现在至少瞥见了将来按生物现实设计脑模型的可能性,而不是用一些毫无生物依据的模型仅仅去捕捉脑行为的某些有限方面。即便现在这些新观念已经使我们对实验的讨论更为敏锐,我们现在更多地了解了关于个体神经元所必须掌握的知识。我们可以指出回路的哪些方面我们尚不足够了解(如新皮层的向回的通路),我们从新的角度看待单个神经元的行为,并意识到在实验日程上下一个重要的任务是它们整个群体的行为。神经网络还有很长的路要走,但它们终于有了好的开端。 ①查尔斯·安德森(charlesAnderson)和戴维·范·埃森提出脑中有些装置将信息按规定路线从一处传至另一处。不过这个观点尚有争议。 ①该网络以一个早期网络为基础。那个网络被称为"自旋玻璃",是物理学家受一种理论概念的启发而提出的。 ①这对应于一个适定的数学函数(称为"能量函数",来自自旋玻璃)的(局域)极小值。霍普菲尔德还给出了一个确定权重的简单规则以使网络的每个特定的活动模式对应于能量函数的一个极小值。 ①对于霍普菲尔德网络而言,输出可视为网络存贮的记忆中与输出(似为"输入"之误——译者注)紧密相关的那些记忆的加权和。 ①在1968年,克里斯托夫·朗格特-希金斯(Christopher Longuet-Higgins)从全息图出发发明了一种称为"声音全息记录器"(holophone)的装置。此后他又发明了另一种装置称为"相关图",并最终形成了一种特殊的神经网络形式。他的学生戴维·威尔肖在完成博士论文期间对其进行了详细的研究。 (2)他们和其他一些想法接近的理论家合作,在1981年完成了《联想记忆的并行模式》,由杰弗里·希尔顿(Geoffrey Hinton)和吉姆·安德森编著。这本书的读者主要是神经网络方面的工作者,它的影响并不像后一本书那样广泛。 (1)PDP即平行分布式处理(Parallel Distributed rocessing)的缩写。 ①更准确他说是误差的平方的平均值在下降,因此该规则有时又叫做最小均方(LMS)规则。 ①29个"字母"各有一个相应的单元;这包括字母表中的26个字母,还有三个表示标点和边界。因而输入层需要29x7=203个单元。 ②例如,因为辅音p和b发音时都是以拢起嘴唇开始的,所以都称作"唇止音"。 ③中间层(隐层)最初有80个隐单元,后来改为120个,结果能完成得更好。机器总共需要调节大约2万个突触。权重可正可负。他们并没有构造一个真正的平行的网络来做这件事,而是在一台中型高速计算机上(一台VAX11//780FPA)模拟这个网络。 ①计算机的工作通常不够快,不能实时地发音,因而需要先把输出录下来,再加速播放,这样人们才能听明白。 ②塞吉诺斯基和罗森堡还表明,网络对于他们设置的连接上的随机损伤具有相当的抵抗力。在这种环境下它的行为是"故障弱化"。他们还试验以11个字母(而不是7个字母)为一组输入。这显著改善了网络的成绩。加上第二个隐单元层并不能改善它的成绩,但有助于网络更好地进行泛化。 ①除了上面列出的以外,NET talk还有许多简化。虽然作者们信奉分布式表达,在输入输出均有"祖母细胞"即,例如有一个单元代表"窗口中第三个位置上的字母a"。这样做是为了降低计算所需要的时间,是一种合理的简化形式。虽然数据顺序传入7个字母的方式在人工智能程序是完全可以接受的,却显得与生物事实相违背。输出的"胜者为王"这一步并不是由"单元"完成的,也不存在一组单元去表达预计输出与实际输出之间的差异(即教师信号)。这些运算都是由程序执行的。 ②这种比较不太公平,因为神经网络的一个单元更好的考虑是等价于脑中一小群相神经元。因而更合适的数字大约是8万个神经元(相当于一平方毫米皮层下神经元的数目)。 ①它是由斯蒂芬·格罗斯伯格、托伊沃·科霍宁等人发展的。 ①我不打算讨论竞争网络的局限性。显然必须有足够多的隐单元来容纳网络试图从提供的输入中所学的所有东西,训练不能太快,也不能太慢,等等。这种网络要正确工作需要仔细设计。毫无疑问,不久的将来会发明出基于竞争学习基本思想的更加复杂的应用。 "宇宙就像一部展现在我们眼前的伟大的著作。哲学就记载在这上面。但是如果我们不首先学习并掌握书写它们所用的语言和符号,我们就无法理解它们。" ——伽利略 现在让我们总瞰一下到目前为止我们所涉及到的领域。本书的主题是"惊人的假说"——即我们每个人的行为都不过是一个拥有大量相互作用的神经元群体活动的体现。克里斯托弗·科赫(Christof Koch)和我认为探索意识问题的最佳途径是研究视觉觉知,这包括研究人类及其近亲,然而,人们观看事物并不是一件直截了当的事情,它是一个建设性的、复杂的处理过程。心理学研究表明,它具有高度的并行性,又按照一定的顺序加工,而"注意"机制则处于这些并行处理的顶端。心理学家们提出过若干种理论试图来解释视觉过程的一般规律,但没有一种更多地涉及脑中神经元的行为。 脑本身是由神经元及大量支持细胞构成的。从分子角度考虑每个神经元都是一个复杂的对象,常具有无规则的、异乎寻常的形状。神经元是电子信号装置。它们对输入的电学和化学信号快速地作出反应,并将它们的高速电化学脉冲沿轴突发送出去,其传送距离通常比细胞体直径还要大许多倍。脑中的这些神经元数目巨大,它们有许多不同的类型。这些神经元彼此具有复杂的连接。 与大多数现代计算机不同,脑不是一种通用机。在完全发育好以后,脑的每一部分完成某些不同的专门任务。而另一方面,在几乎所有的反应中,都有许多部分相互作用。这种一般性观念得到了人脑研究的支持,这些研究包括对脑损伤者的研究以及使用现代扫描方法从头颅外进行的对人脑的研究。 视觉系统的不同的皮层区的数目比人们所预料的要多得多。它们按一种近似等级的方式连接而成。在较低级的皮层区,神经元到眼睛的连接最短,它们主要对视野中一小块区域中的相对简单的特征敏感,尽管如此,这些神经无也受该区域所处的视觉环境影响。而较高级皮层区的神经元则对复杂得多的视觉目标(如脸或手)有反应,对该物体在视野中的位置并不敏感。(目前看来)似乎并不存在单独的皮层区域与视觉觉知全部内容相对应。 为了理解脑如何工作,我们必须发展出描述神经元集团间如何相互作用的理论模型。目前这些模型对神经元进行了过分的简化。尽管现代计算机比其上一代在运算速度上快得多,也只能对数目很少的一群这类简化神经元及其相互作用进行模拟。尽管如此,虽然这些不同类型的简化模型仍显原始:却经常表现出一些令人吃惊的行为。这些行为与脑的某些行为有相似之处。它们为我们研究脑所可能采取的工作方式提供了新的途径。 以上是背景知识。在此基础上,我们着手解决视觉觉知问题,即:如何从神经元活动的角度来解释我们所看见的事物。换句话说,视觉觉知的"神经关联"是什么?这些"觉知神经元"究竟位于何处呢?它们是集中在一小块地方还是分散在整个脑中?它们的行为是否有什么特别之处? 作为开始,让我们首先回顾一下第二章 曾概述的各种观点。视觉觉知究竟包括哪种心理学处理过程呢?如果我们能够找出这些不同的处理过程在脑中的确切位置,那或许会对定位我们所寻找的觉知神经元有所帮助。 菲力普·约翰逊-莱尔德认为,脑和现代计算机一样,具有一个操作系统。该操作系统的行为与意识相对应。他在著作《心理模型》(Mental Medels)一书中,从更加广阔的背景下提出了这一思想。他认为,有意识和无意识过程的区别在于后者是脑中高度的并行处理的结果。正如我已在视觉系统中所描述的那样,这种并行处理就是大量的神经元能够同时工作,而不是序列式地一个接一个地处理信息。这才能使有机体有可能进化成具有特殊的、运转快速的感觉、认知及运动系统。而更为序列式的操作系统对所有这些活动进行全局控制,这样才能够快速、灵活地作出决定。粗略地打个比方,这就好像一个管弦乐队的指挥(相当于操作系统)控制着乐队所有成员同时演奏一样。 约翰逊-莱尔德假定,虽然这个操作系统可以监视它所控制的神经系统的输出,它能利用的只是它们传递给它的结果,而不是它们工作的细节。我们通过内省只能感觉到我们脑中所发生的情形的很少的一部分。我们无法介人能产生信息并传给脑的操作系统的许多运作中。因为他将操作系统视为主要是序列式的,所以他认为,"在内省时,我们倾向于迫使本来是并行的概念进入序列式的狭窄束缚中。"这是使用内省法会出现错误的原因。 约翰逊-莱尔德的观点表达得很清楚,又很有说服力。但是,如果我们希望从神经的角度理解脑,还必须要识别该操作系统的位置和本质。它不一定与现代计算机的许多特性相一致。脑的操作系统可能并不是清晰地定位于某一特殊位置上。从两种意义上说,它更像是分布式的:它可能涉及脑中相互作用的若干分离的部分,而其中某一部分的活动信息又会分散到许多神经元。约翰逊-莱尔德对脑的操作系统的描述使人多少想起丘脑,但是丘脑的神经元太少了,以致于无法表达视觉觉知的全部内容(虽然这是可以验证的)。似乎更有可能的是,在丘脑的影响下新皮层的部分神经元(而不是全部神经元)可以表达视觉觉知。 我们寻找的觉知的神经关联会处于脑功能等级的哪个阶段呢?约翰逊-莱尔德认为,操作系统处在处理等级的最高层次,而雷·杰肯道夫认为觉知与中间层次有更多联系。究竟哪种观点更合理呢? 杰肯道夫关于视觉觉知的观点①是基于戴维·马尔(Davidmarr)的2.5维图而不是三维模型的思想的(大致说是第六章 所描述的以观察者为中心的可见表面的表象)。这是由于人们直接感受到的只是视野中物体呈现的那一侧;物体后面存在看不见的部分则仅仅是推测。另一方面,他相信对视觉输入的理解(即我们感觉到的是什么)是由三维模型和"概念结构"(conceptua1structure,是思维的另一种堂皇的说法)决定的。以上就是他的意识的中间层次理论。 下面的例子会有助于理解这个理论。如果你看见一个背对着你的人,你只能看见他的后脑勺,而看不见他的脸。然而,你的脑会推断出他有一张脸。我们会这样进行推理,因为如果他转过身来,表明他的头的正面并没有脸,你会感到十分惊讶的。以观察者为中心的表象是与你所看见的他的头的后部相对应的。这是你所真实感觉到的。你的脑所做出的关于其正面的推断是从某种三维模型表象得到的。杰肯道夫认为你并不直接察觉这个三维模型(就此而言,同样你也没有直接察觉你自己的思想)。正如一句古诗所说:未闻吾所言,安知吾所思? 由于初读杰肯道夫的著作①时不容易理解他的语言,我把他的理论的倒数第二种说法放在脚注中。②如果我对他的理论的理解是正确的话,他的观点应用于视觉即是"形态上的差异"(包括一个视觉目标的位置、形状、颜色、运动等)是与一种短时记忆有关(或由它引起/支持/投射)的表象,这种表象是一种"胜者为王"机制(一种选择机制)的结果,而注意机制的作用则使它更加丰富。 杰肯道夫的观点的价值在于,它提醒我们不要假设脑的最高层次必定是视觉觉知中涉及的唯一层次。我们面前的场景在脑中的栩栩如生的表象可能涉及了许多中间层次,其他层次可能不够生动,或者如他所推测,我们可能根本不能察觉它们(的活动)。 这并不意味着信息仅仅是从表面表象流向三维表象;几乎可以肯定双向流动是存在的。在上面的例子中,当你想像一张脸孔的正面时,你所感觉到的正是由无法感知的三维模型产生的可感知的表面表象。随着这一主题的发展,两种表象之间的区别或许还需进一步明确,但它对我们试图解释的问题给出了一种最初的、粗略的看法。 目前尚不清楚这些层次在皮层中的准确位置。就视觉而言,它们更可能对应于脑的中部(如下颞叶及某些顶区),而不是脑的额区,但是杰肯道夫所指的究竟是视觉等级系统(见图52)中哪个部分,这仍有待于探索(第十六章 将就此作更详细的讨论)。 在看了一些心理学家对这个问题的观点之后,我们现在再从那些了解神经元、它们的连接以及发放方式的神经科学家的角度来看这个难题。与意识有关(或无关)的神经元的行为的一般特征是什么?换句话说,意识的"神经关联"是什么?从某种意义上说,神经元的活动对意识是必不可少的,这看起来是合理的。意识可能与皮层中某些神经元的一种特殊类型的活动有关。毫无疑问它会具有不同的形式,这取决于皮层的哪些部分参与活动。科赫和我假设其中仅有一种(或少数几种)基本机制。我们认为,在任意时刻意识将会与瞬间的神经元集合的特定活动类型相对应。这些神经元正是具有相当潜力的候选者的集合中的一部分。因此,在神经水平上,这个问题即为: ·这些神经元在脑中位于何处? ·它们是否属于某些特殊的神经元类型呢? ·如果它们的连接具有特殊性,那是什么? ·如果它们的发放存在某些特殊方式,那是什么? 怎样去寻找那些与视觉觉知有关的神经元呢?是否存在某些线索暗示了与这种觉知相关的神经发放的模式呢? 正如我们已经看到的,心理学理论对我们有若干提示。某些形式的注意很有可能参与了觉知过程,因而我们应当研究脑选择性注意视觉目标的机制。觉知过程很有可能包括某些形式的极短时记忆,因而我们还应探索神经元贮存和使用这种记忆时的行为。最后,我们似乎可以一次注意多个目标,这对觉知的某些神经理论提出了问题,因此我们从论述这个问题开始。 当我们看见一个物体时,脑子里究竟发生了些什么呢?我们会看到的可能存在的、不同的物体几乎是无限的。不可能对每个物体都存在一个相应的响应细胞(这种细胞常被称为"祖母细胞")。表达如此多具有不同深度、运动、颜色、朝向及空间位置的物体,其可能的组合大得惊人。不过这并不排除可能存在某些特异化的神经元集团,它们对相当特定的、生态上有重要意义的目标(如脸的外貌)有响应。 似乎有可能的是,在任意时刻,视野中每个特定的物体均由一个神经元集团的发放来表达。①由于每个物体具有不同的特征,如形状、颜色、运动等,这些特征由若干不同的视觉区域处理,因而有理由假设看每一个物体经常有许多不同视觉区域的神经元参与。这些神经元如何暂时地变成一个整体同时兴奋呢?这个问题常被称为"捆绑问题"(binding problem)。由于视觉过程常伴随听觉、嗅觉或触觉,这种捆绑必然也出现在不同感觉模块之间。② 我们都有这种体验,即对物体有整体知觉。这使我们认为,对于已看见的物体的不同特征,所有神经元都产生积极的响应,而脑则通过某种方式相互协调地把它们捆绑在一起。换句话说,如果你把注意力正集中在与你讨论某个观点的朋友上,那么,你脑中有些神经元对他的脸部运动反应,有些对脸的颜色反应,听觉皮层中的神经元则对他的讲的话有反应,还可能有贮存的关于这张脸属于哪个人的那些记忆痕迹,所有这些神经元都将捆绑在一起,以便携带相同的标记以表明它们共同生成了对那张特定的脸的认知。(有时候脑也会受骗而做出错误的捆绑,比如把听到的口技表演者的声音当作是被模仿物发出的。) 捆绑有若干种形式。一个对短线响应的神经元可以认为把组成该直线的各点捆绑在一起。这种神经元的输入和行为最初可能是由基因(及发育过程)确定的,这些基因是我们远古的祖先的经验进化的结果。另一种形式的捆绑,如对熟悉物体的识别,又如熟悉的字母表中的字母,可能从频繁的、重复性的体验中获得,也就是说,是通过反复学习得到的。这或许意味着参与某个过程的大量神经元最终彼此有紧密的连接。①这两种形式的相当永久的捆绑可以产生一些神经元群体,它们作为整体可以对许多物体(如字母、数字及其他熟悉的符号)作出反应。但脑中不可能有足够多的神经元去编码几乎无穷数目的可感知的物体。对语言也是如此。每种语言都有大量但却是数目有限的单词,而形式正确的句子的数目却几乎是无限的。 我们最为关心的是第三种形式的捆绑。它既不是由早期发育确定的,也不是由反复学习得到的。它特别适用于那些对我们而言比较新奇的物体,比如说我们在动物园里看见的一只新来的动物。在多数情况下,积极地参与该过程的神经元之间未必有较强的连接。这种捆绑必须能够快速实现。因此它主要是短暂的,并必须能够将视觉特征捆绑在一起构成几乎无限多种可能的组合,只不过也许在某一时刻它只能形成不多的几种组合。如果一种特定的刺激频繁地出现,这种第三种形式的瞬间的捆绑终将会建立起第二种形式的捆绑即反复学习获得的捆绑。 遗憾的是,我们并不了解脑如何表达第三种形式的捆绑。特别不清楚的是,在集中注意的觉知时,我们究竟每次仅仅感知一个物体,还是可以同时感知多个物体。表面上看,我们每次能感觉的绝不只一个物体,但这是否可能是错觉呢?脑真的能如此快速一个接一个地处理多个物体的信息,以致它们好像同时出现在我们脑海中吗?也许我们每次只能注意一个物体,但在注意之后,我们可以大致记住其中几个。因为我们并不确切知道,所以我们必须考虑所有这些可能性。让我们先假设脑每次只能处理一个物体。 究竟哪种类型的神经活动可能与捆绑有关呢?当然,意识的神经关联可能仅仅包含一种特殊类型的神经元,比如说,某个特殊皮层上的一种锥体细胞。一种最为简单的观点是,当这个特殊神经元集团的某些成员以一个相当高的频率发放(比如大约4oo或500Hz),或维持一段适当长时期的发放,此时觉知便出现了。这样,捆绑仅仅对应于皮层神经元中相当小的一部分,它们在皮层中若干不同的区域同时高频发放(或都发放很长一段时间)。看起来这会有两个结果:这种快速或持续性的发放将增强这个兴奋的神经元集团对所投射到的神经元的影响,而这些被影响的神经元则对应于此时脑所觉知的物体的"意义"。同时,这种快速的(或持续的)发放将激活某种形式的极短时记忆。 然而如果脑能同时精确地觉知不只一个物体,那么这种观点就不能成立。即便脑每次只处理一个物体,它也必须区分目标和背景。为了理解这一点,不妨想像在一个视野中靠近视觉中央的地方,恰好有一个红色的圆和一个蓝色的方块。那么,对应于觉知的某些神经元将会快速发放(或持续发放一段时间),有些标识红色,有些标识蓝色,其他一些标识圆,当然还有一些标识方块。脑又怎样知道哪种颜色与哪种形状相互搭配呢?换句话说,如果觉知仅仅对应于快速(或持续)的发放,脑多半会将不同物体的属性混在一起。 有许多方法可以解决这个困难。或许只有当脑注意某个物体时才会形成对它的生动的觉知。或许注意机制使对被注意的物体反应的神经元的活动增强,同时削弱对其他物体反应的神经元的活动。倘若如此,脑只能随着注意机制从一个物体跳跃到另一个物体,一个接一个地进行处理,毕竟,当我们转动眼睛时,情形是这样的。我们先注意视野中的一部分区域,然后转而注意另一区域,如此下去。由于我们不动眼睛就能同时看见多个物体,故注意机制的速度必须比上述情况要快,并能在眼的两次转动之间工作。 第二种替代的解释是,注意机制以某种方式使不同的神经元以多少不同的方式发放,此时的关键在于相关发放。①它基于这样一种观点,即重要的不仅仅在于神经元的平均发放率,更是每个神经元发放的精确时间,为简单起见,让我们仅仅考虑两个物体。 对第一个物体的特征反应的神经元都在同一时刻以某种模式发放,相应于第二个物体的神经元也都同时发放,但发放的时间与第一个神经元集团不同。 举个理想化的例子可以把这个问题讲得更清楚。假设第上集团中的神经元发放很快。或许它们还会再次发放,比如说是在l00毫秒以后。同样,在第二簇发放后过100毫秒又再次发放,如此下去。假设第二群神经元也同样每隔大约100毫秒发放一簇高速脉冲,但是只在第一群神经元处于静息状态的时候才发放。这样,脑中的其他部分不会把这两群神经元的发放混在一起,因为它们从不会同时发放①。 此处的基本观点是:同时到达一个神经元的许多脉冲将比不同时刻到达的同样数目的脉冲产生更大的效果。②其理论要求是同一群神经元的发放有较强的关联,同时不同群的神经元之间关联较弱,甚至根本没有关联。③ 让我们回到我们的主要问题上。这就是定位"觉知"神经元并揭示使它们的发放象征着我们所看见的东西的机制是什么。这就像试图侦破一个神秘的谋杀案。我们了解受害者(觉知的本质)的一些线索,还知道可能与犯罪有关的许多杂乱的事实。哪方面进展看来最有希望呢?由此下一步又该怎么做呢? 最直接的线索将是在现场捉住嫌疑犯。我们能否发现那些行为一直与视觉觉知有关的神经元呢?一种可能的办法是设置一种环境(第三章描述过的观看内克(Necker)立方体)使进入眼睛的视觉信息保持不变,但知觉却会发生变化。当知觉改变时,哪些神经元会改变其发放,或改变发放的方式,而哪些神经元却不会改变?如果一个特定神经元的发放不随知觉改变,这就提供了一个"它不在现场"的证据。另一方面,如果它的发放确实与知觉有关,我们还需确定它是"真凶"还是"从犯"。 让我们换一种策略。我们能否将案发地点限定在某个特定的城镇、一个区或建筑物中的单元呢?这将使我们的搜索变得更有效,在我们的问题中,即我们能否大致说出视觉觉知神经元在脑中可能的定位呢?显然,我们推测它在新皮层。虽然我们不能完全忽略新皮层的紧密的近邻,如丘脑和屏状核,以及在进化上比较古老的视觉系统(older visua1 system)和上丘,更不能忽略纹状体和小脑。视觉觉知不太可能存在于诸如听皮层等区域,因此我们可以将注意力主要集中在图48所示的许多视觉皮层区域。或许我们能发现证据表明某些区域比其他区域被更紧密地牵涉到视觉觉知。 这尚不足以找到凶手,但可能将我们引向正确的方向。罪犯可能是某种特殊类型的人。比如说,一名强壮的男子,一名心理失常的青少年,或者一群匪徒。在此处,可能涉及到哪些类型的神经元呢?是兴奋性神经元?还是抑制性神经元?是星形细胞,还是锥体细胞?如果它们是在皮层上,那么在皮层中哪一层或哪些层才能找到它们呢? 另一种策略将是寻找他们之间是否有某些形式的通讯联系,从而使之露出马脚。如果这是一帮匪徒所为,他们是否在汽车里使用了移动电话?用神经学的术语说,觉知是否依赖于仅仅出现在脑中特定位置上的某些特别形式的神经回路呢? 或许有人会寻找犯罪的动机。凶手犯罪能得到某种利益吗?他是否能得到经济上的好处呢?倘若如此,赃款被运到哪里去了呢?如果我们能在那里找到的话,我们或许就能跟踪追查到凶手。用神经的术语讲,视觉信息被发送到脑中的哪些部位?这些部位又是如何与皮层视觉区域连接的呢? 此外,有人会问是否有某些特殊的行为将我们引至嫌疑犯。这或许是神经元群之间的相关发放,或许是这种或那种形式的节律或模式发放。如果我们怀疑是一群匪徒,谁最可能是头目呢?谁决定匪徒们的行动?我们相信,觉知过程中经常涉及到脑对哪种解释最为合理进行判断。这可能是一种包含某些神经元集团的一种"胜者为王"机制,如果我们能发现这种机制,那么胜者的神经本质也许能将我们指向觉知神经元。作案时是否用过什么特殊的武器呢?正如前面所述,我们很有把握地猜测极短时记忆是觉知的本质特征。同时某些形式的注意机制或许协助产生生动的觉知,因此,我们所知道的关于这些在神经水平的工作的任何知识都将把我们引向正确的方向。 简单他说,通过大量的实验手段能从观念上将我们引导到所寻找的神经元及它们的行为。现阶段,因为我们要解决的问题十分困难,我们不能忽略任何哪怕看起来只有很少希望的线索,现在让我们更仔细地检查这些不同的途径的本质。 ①视觉觉知(visua1a Wareness)。在本书中,consciousness和awareness的意思都是意识,只是前者作为范围更广的、比较书面化的词,而后者则更多用于感觉系统(特别是视觉系统),是比较口语化的词(见第一章脚注),在本书的第一和第二部分,它们均译作"意识",并不引起歧义。但在第三部分当中,作者以visual awareness作为consciousness研究的突破口,需区分这两个词。故在第三部分(第十四至十八章)中特将awareness按心理学中译为觉知。——译者注 ①将杰肯道夫的观点归纳起来而不曲解他的意思,这并不容易。如果读者希望进一步理解,可以查阅他的书。我并不打算叙述他对音韵学、句法、语义等方面的论点以及他在音乐认知方面的见解。相反地,我将试图精炼他的基本观点,特别是它们在视觉上的应用。 ①希望精确理解杰肯道夫的话的读者可以查阅他的著作。(他的理论的最终版本,即理论八.还谈到了情感。) ②他的原话是:"每种觉知形式所表达的形态上的差异是由对应该形式的中间层次的结构引起/支持/投射的。该结构是短时记忆表象的匹配集的一部分,而这种表象则是由选择机制指派的,并为注意处理所丰富。特别地,语言觉知是由音韵结构引起/支持/投射的,音乐觉知则对应于音乐表面,视觉感知来自2.5维图。" ①如果一个集团中的神经无空间上离得很近(意味着它们可能有某种相互连接),接受有些相似的输入,并投射到多少有些相似的区域,那便不会引起任何特别的困难。在这种情况下它们就像是单个神经网络中的神经元。令人遗憾的是,通常这种简单的神经网络每次只能处理一个目标。 ②现在还不能完全肯定捆绑问题如我所说的那样真的存在,还是脑通过某种未知的技巧绕了过去。 ①回忆一下,大多数皮层神经元具有成千上万的连接,其中很多在开始时很弱,这意味着只有当脑已经大致按正确方法构造好,才可能容易地、正确地进行学习。 ①这一观点是克里斯托夫·冯。德·马尔斯博格(christoph von der malsburg)在1981年的一篇相当难懂的文章中提出的。此前,彼得·米尔纳(Peter Milner)及其他人也曾叙述过。 ①当然,一个群内轴突的脉冲并不必彼此精确同步。当电位变化沿接受脉冲的神经元的树突传向细胞体时,从时间上看它们的效果会有所扩散。此外,当脉冲沿许多不同轴突传播的时间延迟也有不同。这样,一群神经元的发放时间只需在大约几毫秒范围内是同时的。 ②一种稍微详尽的理论引人了轴突传递过程中这种必然发生的时间延迟,使得离细胞体较远的突触比较近的略早地接受到输入,这样,由于树突延迟时间上的小的差异,两个信号的最大效应将同时达到细胞体。更为详细的理论还考虑局部的抑制性神经无产生的抑制性效果的调节。所有这种定性的考虑应可通过小心的模拟定量化,如在计算机上模拟单个神经元在这种环境下的行为方式,并引人时间延迟等因素。 ③这种发放下太可能像图57表示的那样有规则。 |
|
来自: 昵称45686176 > 《科学哲学》