【技术分享】像人脑一样理解周围世界：脑启发的深度学习模型及其应用

lisikun 2017-06-24

展开全文

人类大脑是生物演化的奇迹，它是由数百种不同类型的、共计千亿神经细胞所构成的复杂生物组织。理解大脑的结构与功能，包括认知、思维、意识和语言的神经基础，不仅是21世纪最具挑战性的前沿科学问题，也是人类认识自然与自身的终极挑战。受脑科学启发的创新研究可能在未来推动新一代人工智能技术和新型信息产业的飞速发展。

图1：大脑的结构与功能

近年来，人工智能领域的许多研究进展反映出这样一个趋势：尽管只是片面地借鉴脑科学研究成果，但是却可以有效地提升现有人工智能模型与系统的效果。倘若我们想要在未来创造出逼近或者超越人类水平的人工智能，一条极为可能的做法就是对脑信息处理机制开展深入研究并迁移到人工智能模型上。在这个方向上，我们课题组基于深度学习模型对人脑中的注意、记忆、反馈等认知机制进行建模，并成功应用到多个计算机视觉与模式识别任务上。

基于反馈卷积网络的弱监督目标检测与分割

人类的视知觉并不是一个简单的前馈过程，实验证据表明，高位皮层对低位皮层具有调节作用。一个单一的视觉刺激可以激活不同大脑皮层区域，这不仅包括低位皮层向高位皮层传递信息的前馈过程，而且还包括高位皮层向低位皮层传递信息的反馈过程。人类大脑在进行视觉注意的时候，往往受自上而下的目标所驱动，尤其是在目标检测的时候，认知神经科学将其解释为“偏向竞争理论”。当前深度学习算法在计算机视觉领域取得了重大进展，在各个实际任务上都取得了非常好的性能。我们结合认知神经科学的偏向竞争理论和深度卷积网络提出了反馈卷积网络，在最终的目标和中层与底层神经元之间建立反馈，当给定一个目标时，利用反馈机制对深度网络中复杂的连接进行裁剪，最终获得了具有类别区分性的视觉注意能力[1]。

图2：图中为提出的反馈卷积神经网络，通过该网络可以很容易获得目标Panda对应的关注区域

图3：模型在弱监督分割任务上的结果

基于选择式多模态循环网络的图像文本匹配

图像文本匹配是多个模式识别任务，例如图像文本跨模态检索、图像描述生成以及视觉问答系统中的一个关键科学问题。当前用于图像文本匹配的算法通常对图像文本提取全局特征，然后利用典型关联分析或者子空间学习策略来拉近匹配的图像文本对。但考虑到图像文本都包含很多冗余信息，具体来说，只有图像文本中的部分显著的、表征同一语义概念的内容才能被关联起来。因此，我们提出了一种基于选择式多模态循环网络的图像文本匹配方法，可以选择性关注和匹配图像文本中的语义实例。所提出的选择式多模态循环网络是一个动态模型，在每一时间步，它利用基于上下文的多模态注意机制选择图像文本中语义上相同的目标和词语，并计算其相似性作为图像文本的局部相似性，然后进行序列化融合得到全局相似性[2]。

图4：基于选择式多模态循环网络的图像文本匹配

图5：预测得到的多模态显著度图实例

基于多模态记忆网络的视频描述生成

视频内容的自动描述是计算机视觉与机器学习领域的一项重大挑战，并且具有广泛的应用背景。为了解决这一问题，相关算法不仅需要对视频内容进行全面理解，还需要准确地将视频中的元素映射到语言空间。我们提出了多模态记忆网络，对视频描述中涉及到的两个模态信息进行表示和交互建模，构建了一个基于多模态记忆模型的视频描述方法。该方法通过构建一个视觉与文本共享的记忆存储空间来对长时视觉文本依赖性进行建模，并进一步指导描述内容的全局视觉注意。具体来说，该方法中的语言模型每次会向当前的多模态记忆存储区中写入当前的文本表示，同时这些记忆存储区中的内容会被读出来指导当前关注的视觉目标；然后，这些被选择的视觉信息将会写入到当前的记忆存储区中，并将被读出来参与当前语言模型的单词预测[3]。

图6：基于多模态记忆网络的视频描述生成

图7：视频描述生成示例

基于时空循环网络的视频行人再识别

当今监控摄像头广泛存在于各个场景，因此在不同场景下对人的身份进行鉴别变得非常迫切，即视频行人再识别。我们利用深度神经网络将特征学习和度量学习统一在一个框架下，并进行端到端的训练和推理。网络的输入是三个视频，其中一个作为锚点，一个为与锚点同属一个行人的不同视频，最后一个为与锚点属于不同行人的视频，所有视频首先经过一个共享参数的卷积神经网络进行特征编码，这些编码作为下一阶段特征学习和度量学习的统一输入。在特征学习阶段，我们利用基于时序的注意模型来自动挑出具有判别力的帧，使其在特征学习阶段具有很大的权重；在度量学习阶段，我们首先逐位置计算一对视频的相似度量，然后利用基于空间的循环神经网络来考虑空间位置的信息，使得相似度度量具有空间连续性[4]。

图8：基于时空循环网络的视频行人再识别

图9：预测得到的每个视频帧重要性程度

更多详细内容请参考以下文章：

[1] Chunshui Cao, Xianming Liu, Jiang Wang, Yinan Yu, Wei Xu, Yi Yang, Deva Ramanan, Chang Huang, Zilei Wang, Thomas Huang, Yongzhen Huang, and Liang Wang, Look and Think Twice: Capturing Top-down Visual Attention with Feedback Convolutional Neural Networks, IEEE International Conference on Computer Vision (ICCV), 2015.

[2] Yan Huang, Wei Wang, and Liang Wang, Instance-aware Image and Sentence Matching with Selective Multimodal LSTM, IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[3] Junbo Wang, Wei Wang, Yan Huang, Liang Wang, and Tieniu Tan, Multimodal Memory Modelling for Video Captioning, arXiv:1611.05592, 2017.

[4] Zhen Zhou, Yan Huang, Wei Wang, Liang Wang and Tieniu Tan, See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification. IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2017.