分享

读书笔记66:深度学习(3)

 Helldavid 2019-02-13

记忆可能是大脑的伤疤

By Fancee


一、为什么会走向深度学习

1.    深度学习是机器学习的一个分支,它根植于数学、计算机科学和神经科学。深度学习一开始并不受待见,但是现在成为机器学习的主流。而机器学习又是人工智能的一个部分。

2.    上个世纪80联大实现人工智能的主流方式是基于使用符号、逻辑和规则来编写智能行为的程序;认知心理学家已经采用这种方法来理解人类的认知能力,尤其是语言。而符号的问题在于,这种过分概括的表达形式使其很难在现实世界中被精确地描述出来。而那时的杰弗里却在逆流而行。杰弗里坚信,将由简单处理单元构成的网络、并行工作和从样本中学习相结合,是理解认知的更好的方式。这个看上去很容易解决的简单的视觉识别问题,最终被证明是个“陷阱”,吞噬了整整一代计算机视觉研究人员的青春。

3.    有一小群不属于主流群体的AI研究人员认为,受大脑生物学启发的那些被称为“神经网络”、“连接主义”和“并行分布处理”的AI实现方法,会最终解决困扰基于逻辑的AI研究的难题。作者正是那一小群人中的一个。

4.    早期人工智能发展缓慢,规则编程负责,且计算机能力不足,不在意脑科学的进展。现在迅猛发展得益于数据存储和计算能力的提升和成本低廉。计算机能力日趋强大,数据资源也变得庞大且丰富。深度学习的应用就在我们身边。从无人驾驶,到语言识别,到智能翻译,到精准治疗和金融交易等领域。

5.    任何人工智能的难题都可以被解决,因为自然界通过进化已经解决了这些难题。 有四个暗示:

  • 第一条:大脑是强大的模式识别器。我们的视觉系统可以在1/10秒内识别混乱场景中的对象。

  • 第二条,我们的大脑可以通过练习来学会如何执行若干艰巨的任务,比如弹钢琴、掌握物理学知识

  • 第三条,我们的大脑并没有充斥着逻辑或规则。推理似乎是基于特定领域的,我们对该领域越熟悉,就越容易解决其中的问题。

  • 第四条,我们的大脑充满了数百亿个小小的神经元,每时每刻都在互相传递信息。这表明,要解决人工智能中的难题,我们应该研究具有大规模并行体系结构的计算机,而不是那些具有冯·诺依曼数字体系结构,每次只能获取和执行一个数据或指令的计算机。

 

二、深度学习学科的发展

6.    深度学习前期发展进程如下:

  •   20世纪五六十年代,诺伯特·维纳(Norbert Wiener)提出基于机器和生物中的通信和控制系统的控制论,学界对自组织系统开始产生了浓厚的兴趣。

  • 奥利弗·塞弗里奇(Oliver Selfridge)创造一个图案识别设备Pandemonium(鬼域)。奥利弗·塞弗里奇认为,大脑中有恶魔负责从感官输入中先后提取更复杂的特征和抽象概念,从而做出决定。


    图 1 Pandemonium

  • 斯坦福大学的伯纳德·威德罗(Bernard Widrow)和他的学生泰德·霍夫(Ted Hoff)发明了LMS(最小均方)学习算法,它与其后继算法一起被广泛用于自适应信号处理,例如噪声消除、财务预测等应用。

  •   弗兰克·罗森布拉特(Frank Rosenblatt),他发明的感知器是深度学习的前身。感知器的目标是确定输入的图案是否属于图像中的某一类别(比如猫)


    图2 感知器工作原理示意

  • 上图解释了感知器的输入如何通过一组权重,来实现输入单元到输出单元的转换。权重是对每一次输入对输出单元做出的最终决定所产生影响的度量。工程师解决这个问题的传统方法,是根据分析或特定程序来手动设定权重或者使用一种从样本中学习的自动过程,算法根据样本自动对权重进行校正这种感知器学习算法的美妙之处在于,如果已经存在这样一组权重,并且有足够数量的样本,那么它肯定能自动地找到一组合适的权重。训练结束时,用测试集(test set)来对感知器是否能够推广到类别未知的新样本的真实度量。然后再泛化(generalization),将以前的经验泛化到新的视角或场景中,我们就可以处理更多现实世界的问题。

 

7.    在20世纪80年代,相信网络模型能够模仿智能行为的人并不只有我和杰弗里,坚持不懈地开发着专门的网络模型。还有

  • 克里斯托弗·冯·德·马尔斯伯格(Christoph von der Malsburg),开发了一种模式识别模型,将发射脉冲的人造神经元连接在一起,并证明了这种方法可以识别图像中的人脸。

  •   大阪大学的福岛邦彦(Kunihiko Fukushima)发明了神经认知机(Neocognitron),一个基于视觉系统架构的多层网络模型,它使用了卷积滤波器和简单形式的赫布可塑性(Hebbian plasticity),这也是深度学习网络的一个直接的前身。

  • 赫尔辛基大学的电气工程师戴沃·科霍宁(Teuvo Kohonen),他开发了一个自组织网络,可以学习将相似的输入通过不同的处理单元聚类到二维映射中(例如可以用来代表不同的语音),相似的输入能够激活输出空间的相邻区域。这个 不需要对每个输入的类别进行标记(通过生成标记来训练监督网络的花费十分高昂)。

  • 在加州大学洛杉矶分校的朱迪亚·珀尔(Judea Pearl)引入了将网络中的结点用概率联系起来的信念网络,比如草地变湿,是因为喷水器打开了的概率,或者因为下雨了的概率。

  • 上述几个例子和其他基于网络的模型都有一个共同的致命缺陷:它们都不足以解决现实世界中的问题

8.    在普林斯顿上课时,我发现神经科学家们正在取得令人振奋的进展 在此之前,生物学、心理学、解剖学、生理学、药理学、神经学、精神病学、生物工程学等许多学科都对大脑进行了研究

  • 大卫·马尔(David Marr)是MIT AI Lab的一名有远见的领导者。追求一种自下而上的策略,从视网膜开始入手(在那里光被转换成电信号),并探求视网膜中的信号如何编码对象的特征,以及视觉皮层如何表示物体的表面和边界。他和托马索·波吉奥为立体视觉开发了一种带有反馈连接的递归神经网络模型

  • 查尔斯·格罗斯(Charles Gross)教授是在普林斯顿研究猴子视觉系统的心理学家。 由于他们在初级视觉皮层中的开创性工作,他们获得了1981年的诺贝尔生理学或医学奖。

  •  乔恩·卡斯(Jon Kaas)和约翰·奥尔曼(John Allman)于 20世纪70年代早期,在威斯康星大学神经生理学系研究从初级视觉皮层接受输入的皮层区域,发现了不同区域具有不同的特性

  •  弗农·蒙特卡索(Vernon Mountcastle) 发现了皮层柱(cortical column)。

  •  作者完成了与导师艾伦·盖尔普林(Alan Gelperin)共同进行的一个绘制大蛞蝓的足神经节代谢活动的短期博士后项目。所学到的是无脊椎动物中所谓的简单神经系统,实际上比进化阶梯上那些更高级动物器官里的更复杂,因为无脊椎动物必须依赖更少的神经元存活,每个神经元都是高度特异化的。也开始明白,没有行为支持,神经科学的任何东西都讲不通。

  • 作者研究了牛蛙交感神经节一个突触的迟慢兴奋性反应 ,它的反应速度是位于同一神经元的另一个突触上的快速的毫秒级兴奋性反应的1/60000。这次经历告诉我,复杂性可能不是通向理解大脑功能的坦途突触是大脑中基本的计算单元,而突触类型的多样性不可小觑。

  • 视觉皮层的组织结构为最成功的深度学习网络提供了灵感。大脑如何解决问题,是终极谜题。视觉是我们最敏锐,也是被研究得最多的一种感官。前额下方的眼睛带给了我们精准敏锐的双眼深度知觉,然而,也正是这种良好的视觉,导致我们完全忽视了视觉系统背后巨大的计算复杂性,大自然经过数亿年的进化才解决了这个问题。


                                      

图3 猕猴视觉系统的信息流动示意图

  • 人眼是怎么产生视觉的? 休伯尔和威泽尔发现,皮层神经元对定向条形光斑和高对比度边缘的反应比点状光斑更强烈视觉皮层中的每个皮层神经元都可以被认为是一个视觉特征检测器。在视野中的特定区域,当某些神经元所偏好的特征信号输入高于某个阈值时,这些神经元就会被激活。每个神经元偏好的特征取决于它与其他神经元的连接。

    猫的初级视觉皮层中一个复杂细胞的响应

    这张图片来自休伯尔和威泽尔在1962年发表的论文中关于发现复杂细胞的描述。只要方向正确(图中ABC这三条记录),一个长而窄的黑条会引起大量放电(垂直竖线)响应,无论它位于复杂细胞感受野(虚线)内的哪个位置。而非最优方向会导致较弱的响应,或根本没有响应(图中DE这两个记录。

  • 科学家从视觉神经入手研究神经网络。发现视觉神经突触是可塑的,而且只在一定时间内可塑。磨损的蛋白质会被替换,膜中的脂质也会被更新。有了这么多的动态转变,就很难解释记忆是如何在有生之年得以维持的了。这使得记忆有了一种新解释,记忆是大脑的伤疤,是神经细胞的骨骼而不是细胞本身。

9.    通过阴影脑补立体全貌

  • 史蒂文·祖克(Steven Zucker)(见图5–7)专注于融合了计算机视觉和生物视觉的交叉领域的研究。想要了解我们如何从表面阴影以及折痕和褶皱中提炼出物体的形状。他用方程来解释为何从毛衣上的阴影变化中,我们可以察觉到衣服褶皱的形状。最近已经能够搞清楚我们是如何在有阴影的图像中看到褶皱的,其背后的解释是基于类似山体等高线图的表面三维轮廓,以及图像上等照度轮廓之间的密切关系。

    图5 耶鲁大学史蒂文·祖克, 

    他身后黑板上的方程式解释了为什么我们能识折痕和褶皱中提炼出物体的形状

  •   1988年,西德尼·莱基(Sidney Lehky)和我有了一个想法,我们也许可以训练一个只有一层隐藏单元的神经网络来计算阴影曲面的曲率。我们成功了,而且出人意料的是,隐藏单元的表现跟简单细胞非常相似。这一结论令人惊讶:神经元的功能不仅仅取决于它如何对输入做出反应,而且还取决于它通过自身的“投射域”激活的下游神经元。

  • 1991年,还在加州理工学院的大卫·范·艾森(David Van Essen)仔细研究了皮层每个视觉区域的输入和输出,并将它们按层级排列了出来(见图5–11)。这张图有时仅仅被用于说明皮层的复杂性。它就像一座大城市的地铁图。

图6猴脑中视觉区域的层级结构图


三、计算神经科学的创立

10. 与物理学中的力不同,大脑回路(brain circuits)有一个目的,就是解决计算问题,比如看见和移动,以便在世界上生存。即使是一个关于神经元如何工作的完美的物理模型,也不会告诉我们它的目的是什么。神经元负责处理携带信息的信号,而计算则是试图理解大自然的缺失一环。 作者开创了一个新的领域,叫作“计算神经科学computational neuroscience”。对大脑学习行为的研究可以在从分子层面到行为层面不同的层面进行。

11. 作者利用神经科学理解大脑。像物理学家几个世纪以来使用数学来理解重力、光、电、磁和核能的本质一样,通过写下非线性神经元交互网络的方程式并分析它们来解决如何理解大脑的问题,但是因为神经网络方程式是非线性的,与之相关的噪声是非高斯分布的,而且变量是不可分的,所以它们并没有明确的解

12. 与20世纪80年代只有数百个单元和数千个连接的网络相比,现在模拟出的神经网络具有数百万个单元和数十亿个连接。尽管按照拥有数千亿个神经元和千万亿个突触连接的人类大脑的标准来看,这个数字仍然很小,但现有神经网络的规模已经可以在有限领域中进行原理的证明。

图7  人脑连接组

13. 普林斯顿大学的尤里·哈森(Uri Hasson)进行了一项fMRI实验,旨在探究视觉层级的哪些部分涉及处理不同长度的电影。查理·卓别林(Charlie Chaplin)的无声电影被剪辑为4秒、12秒和36秒的片段呈现给受试者。在4秒的剪辑中,受试者可以识别一个场景;12秒时,可以看清连接的动作;在36秒的长度下,能够看到一个有开头和结尾的故事。在层级底部的初级视觉皮层中的fMRI反应,无论在什么样的时间尺度上,都强大且可靠。但在视觉等级的较高层次上,只有较长的时间尺度才能引起可靠的反应,而位于层级顶层的前额叶皮层区需要最长的时间间隔。这与其他实验结果一致,即工作记忆也按照层级分布。工作记忆是我们掌握信息的能力,比如要记住的电话号码,以及我们正在处理的任务的要素。最长的工作记忆时间尺度同样位于前额叶皮层。

 

四、深度学习的影响

14. 如果说数据是新时代的石油,那么学习算法就是从中提取信息的炼油厂;信息积累成知识;知识深化成理解;理解演变为智慧。而深度学习能够让传统的数据分析方法如虎添翼。

15. 新兴技术不是生存威胁,AI可以让你变得更聪明。训练深层网络能干什么只受限于训练者的想象力和数据。这种形式的学习只取决于在一系列动作结束时给予获胜者的奖励,这似乎和提前做出更好的决策相矛盾。

16. 人工智能的发展要求每个人都要终身学习,教育不仅会变得更加个性化,也会变得更加精准。要做到这一点,我们需要一个以家庭,而不是以学校为基础的新教育体系。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多