分享

大脑如何分辨沃尔沃和玛莎拉蒂

 静远德载 2019-11-22
时间:2014-09-05 14:59 来源:环球科学()
我们都会直觉上知道什么是物体识别。这种能力可以让你在很多面孔认出自己的面孔,从许多辆车中分辨出一辆车,区分骆驼和狗,我们都可以用直觉做到。但要理解我们的大脑是如何完成这一过程则是个富有挑战性的问题

James DiCarlo是麻省理工学院脑与认知系的神经学教授,研究内容为灵长类动物的视觉物体识别。
 
我得以在五月底的第79届冷泉港计量生物学实验室关于认知的重要研究座谈会上采访他。在采访中,DiCarlo聊到了他的研究,但同时也强调了一些基础的问题,比如什么是物体识别。下面是完整的采访记录。
 
SA:Jim(James的昵称),你能简单定义一下物体识别么?
J:我们都会直觉上知道什么是物体识别。这种能力可以让你在很多面孔认出自己的面孔,从许多辆车中分辨出一 辆车,区分骆驼和狗,我们都可以用直觉做到。但要理解我们的大脑是如何完成这一过程则是个富有挑战性的问题,部分问题在于,定义是或不是并不容易。我们理 所当然地觉得这个问题毫不费力。但是,计算机视觉的人会告诉你,这个问题很有挑战性,因为每个物体实质上会在你的视网膜上投射无限多个影像,因此事实上, 对于同一个物体,你也绝不会两次看到相同的影像。
 
SA:似乎物体识别对于神经科学和机器学习的计算科学都是个重大的问
J:没错。不仅仅是机器学习,还有心理学或认知科学。我们用所看到的物体来构建更高级的认知世界,比如记忆或是决策。我应该争取这个么?或者我要回避这个么?如果没有这些我们通常认为是理所当然的元素,大脑是无法做出更高级的认知的。
 
SA:你能谈谈在这一过程中,大脑里究竟发生了什么吗?
J:近几十年有一个共识,如果在人类或非人类灵长动物中大脑颞叶侧下部的部分发生损伤,会导致认知缺陷。所 以我们了解了主管认知的规则的脑区。但仅仅是说这一部分解决问题并不够特异,这仍然是相当大的一片组织。解剖学告诉我们那里存在着一套完整的工作网络,神 经生理学工具和更加先进的工具深入进去,更近距离观察神经活动,特别是在非人类灵长动物中。然后我们就可以在工程水平开始解释实际上的运算,比如用来模拟 我们的大脑中发生了什么。
 
SA:也许你可以再详细讲讲你是如何努力发现这些网络的组成部分的?
J:最开始我要说任何科学的基础都是通过现象预测模型的能力。对于物体认知领域来说,如果你想从工程方面进 行效仿,首先你需要定义试图预测是什么。我们成为核心物体识别的目标是一种能力,是指当你注视一个图像200毫秒,即当你的眼睛探索周围景象时停留的大概 时间。但是对人类来说,这段短暂的时间足够做很多事。我们可以轻松识别出一个或多个物体在这短短的200毫秒的一瞥中,虽然这仅仅有五分之一秒。你可以发 现这不是全部的视觉,但这是限定范围行为,我们可以从这里开始解决问题。
 
SA:好的,那么你已经有了一个预测模型,然后你想要检验这个模型……
J:我向你描述的是一个需要理解的工作范围,我们将之称为核心认知。我们都知道影像被眼睛接收,然后经过一 系列大脑中负责视觉的区域进一步处理。这一过程还没有揭开面纱,但我们可以记录到通路中的神经活动。已经有其他的研究者在这方面领先于我们,我们现在所做 的是在更大尺度上进行研究,我们可以记录神经活动。其中我们最感兴趣的部分是颞下皮层,那里是我们之前提到的整个过程中的最高水平调控中心。我们发现那里 神经活动的模式是一个非常简单的模型,可以准确预测生物的感知,包括我们自己的感知,我们在核心区域进行认知的能力。
 
SA:你可以通过观察神经活动预测,比如说,我从背景中分辨出一棵树么?
J:我就是这个意思。在现有的粒度上我们可以做的仍然属于活动性研究,但是我们的确可以“辨识树木”。从对 神经活动的观察中,我们可以预测被试能否描述它看到是树还是狗,或者描述出一棵树还是一辆车,或者区分两棵树。我们正在试图努力看我们能否在瞬时性的基础 上完成这一工作,以及我们是否可以准确预测被试描述所见时的错误模式,比如展示的是一只猫但描述却是一只狗。
 
SA:物体识别的问题在于我看着一棵树,而当我开始轻轻向左或者向右移动时,这棵树就会变化,或者我会看到另一棵树。这一模式是否能够在这样的情况下仍然认出这是一棵树或者判断是否是同一棵树?
J:我应该说的再清楚一点的。这是这一模型要处理的最大的问题,而当我说到这一模型解决了什么时,我是在说 颞下皮层神经元的活动被记录下来了。所以我们一旦建立一套针对颞下皮层的解码器,可以解读那一脑区的神经元活动,一棵树的影像就会被解码显示为一棵树。这 是一个完全崭新的影像,但模型仍然可以预测你将会看到什么而且将会非常准确。
 
SA:这种机器学习意味着什么呢?也许某天它甚至可以帮助那些这一神经环路有缺陷的人理解问题?
J:从机器学习这一方面来说,这些神经活动是被机器学习研究者称为“特点”的东西。它们是图像上可以被计 算,而且非常有力的特点。人们会非常乐意得到这些特点的算法。因此大量机器学习的研究都是寻找好的特点,而脑科学的发展已经发现了一些不错的特点。实质 上,我们的报告就是:这里有一些很棒的特点,它们在哪里,这是我们的证据。我们现在正和机器学习专家合作构建加密算法以生成特点。被那些本质上由脑科学启 发的模型推动,最近今年这一领域出现了大量令人兴奋的进展。这些模型现在某种程度上代表了计算机视觉算法的科学水平。
 
SA:广义上看待你现在所做的,就是将所有从编码到神经元活动之间的方式模型化,然后解码大脑知觉。
J:就是这样的。如果我们能够把这些全部完成,我们就可以说对这一脑区的行为有了彻底的了解了。
 
SA:你觉得这一切还要多久才能实现?
J:这取决于细节水平,但我要说就在未来10年内,我们就会对核心的基础水平物体认知有不错的了解,至少是许多工程师都会满意的水平。我们不会细化到神经元水平,但我们至少会有所了解这样算法才能在神经系统不同水平上预测神经活动。
 
SA:你认为这会为环路偶尔会出现的问题提供思路么?
J:影响认知的最常见缺陷是由电击或损毁造成的颞下皮层严重损伤,问题很明显:神经元不见了。可能会引起规 避或代偿。还有其他的颞叶损伤可能会使人们在人面识别或其他无物体的辨识能力方面出现缺陷。这并不常见,但我们的工作同样应当考虑这些缺陷。我们希望它可 以和儿童学习阅读这样的方向关联起来。一天结束时,无论何时你所做的视觉任务,其实都是你在视觉系统里学习了它们的表达。我认为这对帮助我们理解问题的更 高层面,比如说社会认知或者诵读困难,都会有所帮助。
 
SA:除了人们在电影里看到的那些,现实生活中的机器人的工作性能仍然非常局限,一个大问题就是辨识及处理那些它们接受到的信息的能力。你认为你的模型会在这方面有所助益么?
J:计算机视觉协会现在已经开始使用了类脑算法,下一个突破点就是扩展任务范围,不仅仅是你在200毫秒中 做的那些,更是当你伴随着大量眼动探索一个场景或操纵一个场景时,你将会做什么。在那样的情况下,你必须不停地收集累积信息。系统将会获得更多反馈。我不 会说我们可以完成这项工作,然后就会有像《星际迷航》里一样的机器人做所有的事情。但这将是我们迈向下一步的基础。
 
SA:在过去几年里,视网膜修复术有了一定的进展,其中一项进展快速的内容就是在修复中植入神经编码,使他们可以向视网膜一样处理进入的光子。有没有可能你所做的工作会和这样的研究互相关联?
J:这正是目前最令我们兴奋的事情之一。比如对于那些失去了一个视网膜的人,现在的确有视觉修复技术,也有 其他的方式。但最优的一种就是绕过视网膜然后重新注入一种活动的空间模式,比如在直接接受视网膜信息的初期视觉区域或者称为外侧膝状核的部分皮层下区域。 从工程学意义上讲,这是可行的。从我们对视觉工作原理的认识上讲,也是有意义的。缺点在于试图通过许多信息单位在高纬度空间里重塑影响是类似正常视觉的, 但我们正在致力于最高水平的也就是你的大脑其实是在数以百万计的信息单位中有所缩减,形成更加抽像的,大概在100个维度左右的。我们有可能可以模拟出丰 富的视觉全貌。根据我们的理解,你可能只有100中注入信号的方式,100条通路而非上百万的信号通路来形成丰富的知觉空间,这可能是理解脑-机器互通的 更佳方式。
 
SA:总结一下,你所做的工作是将一些非常基础的,我们所有人都会联系到的东西变成基础物理以及对巨大挑战的理论性理解。
J:是的,我认为这种说法很恰当。而且根据神经学的架构,这也的确是它的目标所在。我们相信大脑有一系列机 制可以引发神奇的精神状态和行为,这与我们每个人都相关。物体识别只是神经现象学中的一个核心例子,但我们中大多数人都与之相关。因此,如果我们能够对这 一行为和它之后的神经机制有深入了解,这将是奠定基础性的成就。对于认知的理解,这是重要的基础部分。
 
SA:祝你好运。
J:谢谢
 
(撰文:加里·斯蒂克斯(Gary Stix)  翻译:王思策)
 

转载声明:本文来自环球科学(

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多