2020年深度学习技术发展综述

GTF_001 2021-05-25

展开全文

来源：无人系统技术

作者：王亚珅

摘要：对深度学习领域的研究进行综合评述，并对其进一步发展方向进行分析。首先分析围绕注意力机制的深度学习技术最新研究成果，以及在自然语言处理领域取得突破性进展的巨型预训练模型的特点与发展路径；随后概述开源深度学习市场的火热局面及其对技术升级的推动作用；最后分别从香农定律、冯·诺依曼架构、摩尔定律三个角度探讨深度学习技术的未来发展方向。综述表明，注意力机制和预训练范式在当前计算机视觉和自然语言处理等深度学习重点应用领域中取得长足技术突破，开源深度学习市场的兴起有效推动产学研用各领域深度学习技术落地，在今后很长一段时间里，深度学习依然具有很广阔的发展空间。

关键词: 深度学习；注意力机制；预训练；神经网络；开源；人工智能

01、引言

过去十年最流行的深度学习技术，多以大数据、大计算、大模型算法来驱动，其中包括AlphaGO、AlphaZero等。深度学习在过去一段时间取得了很好的进展，如生成的对抗网络、迁移学习及2020年提出的GPT-3等，其算法理论与应用技术需要结合符号逻辑、知识推理、因果关系新范式等。目前对于学术界和产业界而言，未来五至十年深度学习依然是最重要的算法之一，在今后的很长一段时间里，深度学习依然具有很广阔的发展空间。

02、围绕注意机制的深度学习技术研究进展

注意力（Attention）是认知科学里最大的一个研究领域，每年有超过1万篇文章研究注意力现象。人脑注意有两个重要属性：注意力图和动态注意机制。其中，注意力图有两种：注意显著图（Saliency map）是源于自下而上的注意，注意优先图（Priority map）则结合了自上而下和自下而上的活动以及任务相关性。对于动态注意机制，可以直观阐释为：无论是基于空间的注意、基于客体的注意，还是基于特征的注意，都不是静态的过程，而是在不同的空间、客体和特征之间交替。从仿生学角度出发，近年来深度学习不断采纳和融汇认知学中注意力相关研究成果，不断提升深度学习模型效果；同时，注意力机制也被认为是通往“可解释人工智能”的重要途径和抓手[1]。近年来，Transformer模型[2]在很多不同的领域都取得了最优基线成绩，包括自然语言处理、计算机视觉等，每个Transformer体系结构的核心模块均是注意力模块，它为一个输入序列中的所有位置对计算相似度得分，如图1所示。

传统Transformer方法在输入序列的长度较长时效果不佳，需要以计算时间呈平方增长来产生所有相似性得分，并以存储空间的平方增长来构造一个矩阵存储这些得分。稀疏注意力机制通过从一个序列而不是所有可能的配对中计算经过选择的相似性得分来减少注意机制的计算时间和内存需求，从而产生一个稀疏矩阵而不是一个完整的矩阵。2020年10月，美国谷歌公司、DeepMind公司、艾伦图灵研究院和剑桥大学的联合团队提出了Performer[3]——一种线性扩展的深度学习模型架构，并在蛋白质序列建模等任务中表现良好。Performer使用了一个有效的、线性的广义注意力框架，是一种允许基于不同相似性度量的注意力机制，有潜力影响生物序列分析的研究，降低计算成本和计算复杂性，减少能源消耗和碳排放。

图1 基于注意力机制的Transformer模型架构

Fig. 1 Architecture of Transformer model with attention mechanism

对长程交互进行建模在深度学习中至关重要，注意力已成为捕获长程交互的一种常用范式。但是，自注意力二次方式的内存占用阻碍了其对长序列或多维输入（例如包含数万个像素的图像）的适用性。因此，近来相关研究正在探求对注意力机制的替代。如2020年10月，一款类Transformer模型——LambdaNetworks被提出，无须建立昂贵的注意力图即可捕捉长距离交互，并在计算机视觉任务上取得最佳效果。该研究提出了一种名为lambda的层，这些层提供了一种捕获输入和一组结构化上下文元素之间长程交互的通用框架—— lambda层被视为注意力机制的自然替代：注意力定义了输入元素和上下文元素之间的相似性核，而lambda层将上下文信息汇总为固定大小的线性函数，从而避免了对内存消耗大的注意力图的需求。鉴于Transformer模型在应用计算机视觉研究时经常出现退化现象，2020年9月，美国微软公司提出解耦自注意模型，有效避免了自注意模型中的退化现象，并证明了其在多种视觉识别任务中广泛有效，包括语义分割、物体检测、动作识别等。该成果发表于计算机视觉领域顶级国际会议ECCV 2020[4]。

注意力机制的影响也被当前研究热门方向图神经网络所容纳吸收，并不断演进，形成图注意力网络（Graph Attention Networks，GAT）架构[5]，利用遮挡自注意力机制来学习中心节点与邻居节点之间的注意力权重，根据权重大小聚合邻居节点的空间信息来更新中心节点的特征表示，从而解决了基于卷积或者多项式近似卷积核等方法的固有缺陷——传统图卷积神经网络通过图的拉普拉斯矩阵来聚合邻居节点的特征信息，这种方式和图本身的结构紧密相关，限制了图卷积神经网络在训练时对未见的图结构上的泛化能力。2020年6月，美国DeepMind公司公开其基于图注意力机制的图表征学习最新成果，该成果用于支撑并增强算法推理类型的任务。2020年10月，美国康涅狄格大学团队提出一种全新的数据驱动的时空图注意力卷积神经网络，用于交通网络的高空间和时间复杂性下的自行车站级流量预测。同期，美国佛罗里达州立大学团队提出一种新型的图神经网络——GRAPH-BERT[6]，该网络完全基于注意力机制而没有任何图卷积或聚合算子，可解决目前图神经网络面临的假死和过平滑问题。

2020年12月，美国DeepMind公司的AlphaFold系统在生物学领域取得了重要突破：通过蛋白质的氨基酸序列高精度地确定其3D结构，破解了困扰生物学家50年之久的蛋白质分子折叠问题，而且能够判断出蛋白质结构中的哪一个部分更重要。该系统将蛋白质的折叠形状看作一个“空间图”，用残基表示它们之间的节点，由此创建了一个注意力神经网络系统，并进行端与端之间的训练，探索出蛋白质的具体结构。AlphaFold实现了在生物学上的重大突破，成为计算机视觉和机器学习领域的里程碑，被称作“生物界的ImageNet时刻”，如图2所示。

(a) (b)

图2 AlphaFold2的预测结构（蓝色）与实际结构（绿色）对比基本完全吻合

Fig. 2 The predicted structure (blue) of AlphaFold2 is basically consistent with the actual structure (green)

03、面向自然语言处理的巨型预训练技术研究进展

自然语言处理（Natural Language Proceeding，NLP）被誉为“人工智能皇冠上的明珠”。2018年10月，谷歌发布了BERT（Bidirectional Encoder Representation from Transformers）模型[7]——一种预训练语言模型，该模型被认为是自然语言处理领域“最强模型”，一经发布便引发了深度学习界持续而强烈的关注。预训练语言模型是词向量模型的进化，其本质是有上下文的词向量模型，训练过程概述为：首先给句子中的每个词赋予一个静态向量，然后它会跟句子的上下文词进行交互，最后就得到了这个词在句子中的变化的词向量。

然而，2020年自然语言处理领域最大的轰动来自BERT模型的“后浪”——美国OpenAI公司于2020年5月推出的聚焦通用人工智能的自然语言预训练模型GPT-3[8]（图3），该模型完全刷新了人类对于认知智能的认识，是迄今为止人类

图3 GPT-3证明更大的模型能够更好地利用上下文信息

Fig. 3 GPT-3 shows that larger models make increasingly efficient use of in-context information

历史上体量最大的自然语言处理模型，包含1750亿参数（比GPT-2大10倍、比当时世界最大自然语言处理模型Tururing大10倍），调用上万块GPU、花费460万美元的成本进行训练。美国微软公司和OpenAI合力开发了一款超级计算机，专门用于GPT-3模型训练，这款超级计算机拥有超过28.5万个CPU内核、1万个GPU和400Gbit/s的网络连接。它在世界TOP500超级计算机榜单位列第五名。GPT-3基于英语语料库进行训练，且并不开源，极高的训练成本使得实际上绝大部分企业和科研机构都无力承担。虽然GPT-3的训练成本如此之高，但其效果确实非常令人吃惊：GPT-3在许多自然语言处理任务和数据集上都取得了很强的性能，包括机器翻译、自动问答等，以及一些需要即时推理或领域适应的任务，如在句子中使用一个新词或执行3位数运算，GPT-3可以生成人类评估人员难以区分的新闻文章样本。针对GPT-3不支持中文的弊端，2020年11月，北京智源人工智能研究院和清华大学研究团队合作开展了一项大规模预训练模型开源计划——清源CPM，开放了第一阶段的26亿参数规模的中文语言模型和217亿参数规模的结构化知识表示模型下载。该计划致力于开展以中文为核心的超大规模预训练模型研究，包括跨语言学习、文本生成、知识融合、模型并行和压缩等前沿课题，并将相关模型及时通过智源社区开源共享。其他针对跨语言预训练的研究成果还包括微软图灵团队与微软亚洲研究院于2020年11月联合推出的多语言预训练模型T-ULRv2，成功登顶XTREME公共排行榜（该模型比之前最好的模型VECO有了3.5的平均分提升），T-ULRv2可在相同向量空间表示和理解94种语言，提升所有语言的产品体验。

目前的大型预训练自然语言模型，不仅训练麻烦、代价昂贵、耗时长，且推理时间也很长[9]，因此仅用于云端应用，在设备端应用有明显的局限性。深度学习“教父”LeCun认为：“试图通过扩大语言模型的规模来建造智能应用，就像建造一架飞往月球的飞机。你可能会打破高度记录，但是登上月球其实需要一种完全不同的方法。”所以训练出更小的模型，实际上具有非常大的应用价值。因此，预训练语言模型形成了两种趋势，各大科研机构在这两方面都在做进一步的探索：一方面，人们把模型越做越大，去探索模型能力的边界[10]；另一方面，模型越做越小，使其在各种下游任务中形成生产力，即在手机端等各种小设备上能够单独运行，例如华为的TinyBERT[11]，模型被压缩得非常小（模型大小还不到BERT的 1/7，但速度是BERT的9倍之多）、小到可以用在端侧，再如中国依图科技在2020年10月推出的ConvBERT[12]（仅用 1/10 的训练时间和1/6的参数就获得了跟BERT模型一样的精度）、美国亚马逊公司同期推出的预训练模型Bort[13]（大小仅为BERT的16%，CPU上的推理速度却提升到了原来的8倍）等。目前，模型压缩方面的研究也非常多，主要包括三大类技术：基于知识蒸馏的预训练语言模型压缩、基于剪枝的预训练语言模型压缩和基于量化的预训练语言模型压缩。

除了在自然语言处理领域，预训练技术在计算机视觉领域也有着广泛而出色的应用效果，通过在大规模数据上进行无监督预训练得到优质的表征向量，通过迁移学习或者直接应用的方式支持下游的具体任务。众所周知，自然语言和视觉是人类认识世界、获取知识的重要途径，自然语言处理和计算机视觉也都是当前人工智能最热门的研究领域，然而任何单一模态（自然语言或者视觉）都无法独立地铺就通过认知智能的阶梯——从20世纪90年代开始，一些认知科学研究者不约而同地提出了相似的观点：我们对语言的理解，就是在我们的脑海进行模拟，看看这些句子描述的事物或场景，若换做我们自己亲身去体验会是怎样的。因此，对多模态的研究可能会带来自然语言理解的重大突破，而且自然语言处理领域任务和计算机视觉领域任务很多都相辅相成，所以多模态被认为是人工智能开启常识之门的钥匙。此外，现实当中存在很多处理涉及这两个领域信息的多模态任务，如视觉问答、视觉推理、文书理解等时，需要让不同的模态的信息对齐和交互。预训练技术的热潮已延伸到视觉与文本的交叉领域——多模态预训练技术应运而生，并成为当前研究热点，已涌现出许多探索多模态预训练模型的工作。例如，微软亚洲研究院提出的面向多模态文档理解的预训练系统——LayoutLM 2.0系统，其主体结构是带有空间感知自注意力机制的多模态 Transformer 编码器网络。其主要有两方面优势：在输入阶段同时接受文本、图像、布局三种模态的信息，利用深层网络的强大建模能力实现多模态深度融合；基于文档智能领域特性的空间感知自注意力机制，通过在传统自注意力机制的基础上显式添加空间相对位置信息，进一步帮助模型在一维文本序列基础上加深对二维版面信息的理解。

04、开源深度学习市场发展态势概况

随着深度学习在计算机视觉、自然语言处理等领域取得的成果越来越显著，研究者对其讨论越来越多。就深度学习和人工智能而言，该领域的大部分创新来自谷歌、微软等公司的大型企业实验室，这些公司不仅在令人印象深刻的研究方面处于领先地位，而且定期开放源代码，以简化人工智能技术的应用。从学术界到工业界，“开源”已成为2020年深度学习领域的关键词：一方面，以“授人以渔”的方式为深度学习构建了一个开放共进的生态环境，帮助行业加速深度学习应用落地；另一方面，在解决行业实际问题时实现持续更新和迭代，源源不断地给深度学习领域输送重要的技术养料和创造力——“开源”已成为深度学习落地和繁荣不可或缺的源动力。

深度学习框架被誉为“智能时代的操作系统”。微软和谷歌多年来积极研究用于训练深度神经网络的新框架，并将各自的成果开源——微软的PipeDream和谷歌的GPipe（图4）。GPipe专注于为深度学习项目扩展训练工作量，利用一种称为管道的技术，将数据和模型并行性结合起来；从概念上讲，GPipe是一个分布式机器学习库，使用同步随机梯度下降和管道并行性进行训练，适用于任何由多个连续层组成的深度神经网络。此外，美国Facebook公司开源两个全新深度学习框架：通过自我游戏的方式训练深度学习网络的研究框架Polygames、帮助人工智能研究人员发现高维数据中的相关性和模式的交互可视化工具HiPlot。美国谷歌公司一直是深度学习开源道路的先行者。例如，2020年2月，谷歌大脑开源Trax代码库，作为一个开源项目，其目的在于帮助研究者挖掘并理解高一阶的深度学习模型；2020年9月，谷歌开源基于Google Cloud和Kubernetes的开源可扩展系统Kartta Labs，使用深度学习和众包再现历史街景，可创建带有可探索时间轴的地图，从历史地图和照片中重建过去的城市。

图4 谷歌GPipe将AmoebaNet-D模型分配到4倍数量的加速核心上，实现了3.5倍的加速

Fig. 4 Google’s GPipe allocates Amoebanet-D model to 4 times the number of acceleration cores, achieving 3.5 times acceleration

多个开源深度学习优化库公开，助力产学研用各领域深度学习技术落地。微软研究院开源了深度学习优化库DeepSpeed，该库中包括新型并行优化器ZeRO。通过提高规模、速度、可用性并降低成本，DeepSpeed可在当前一代的GPU集群上训练具有超过1000亿个参数的深度学习模型，极大促进大型模型的训练。同时，与最新技术相比，其系统性能可提高5倍以上。美国Facebook公司发布了用于3D深度学习的开源工具包——PyTorch3D，带有常用的3D运算符和用于3D数据的损失函数及模块化可微渲染API，旨在通过PyTorch简化3D深度学习。作为版本的一部分，Facebook 同时还开源了Mesh R-CNN神经网络工具包，能够对照片中的2D物体进行 3D建模，如图5所示。

图5 Facebook开源Mesh R-CNN神经网络工具包

Fig. 5 Facebook’s open-source neural network Toolkit Mesh R-CNN

目前国内开源的深度学习框架系统尚未形成气候。紧随美国科技巨头，中国的众多高科技公司在2020年纷纷发力开源市场。例如，旷视科技宣布开源重量级深度学习框架天元[14]（MegEngine），从人工智能特定化的方向切入、给开发者提供工具，期望吸引开发者在此基础上进行大规模深度学习模型训练和部署。同期，清华大学研究团队开源其深度学习框架Jittor。腾讯优图实验室宣布正式开源新一代移动端深度学习推理框架 TNN，通过底层技术优化实现在多个不同平台的轻量级部署落地。阿里云正式开源了深度迁移学习框架EasyTransfer，这是业界首个面向自然语言处理场景的深度迁移学习框架。

05、深度学习进一步发展方向分析

深度学习的下一步发展绕不开“算力”这个关键问题。过去60年间，传统计算与通信范式有三个重要原理，分别是香农定律、冯·诺依曼架构和摩尔定律。其中，香农定律定义了熵、信道容量和失真情况下压缩极限，目前我们距离这三个极限已比较接近；冯·诺依曼架构是指五个最基本模块加上程序存储原理，是图灵意义下最好的一种实现，但其瓶颈在于数据和计算的分离，而在深度学习中，庞大数据量本身就会形成一个瓶颈；对于摩尔定律，充足的算力得益于摩尔定律的不断演进发展，高性能芯片大幅降低了深度学习算法所需的计算时间和成本，然而摩尔定律正在逐渐放缓。以突破上述这三个瓶颈为出发点，可从如下三个方面探寻深度学习演进的新思路：

一是重新定义“数据–信息–知识”，制定全新的计算范式。当前的技术研究与应用中，香农定律已从点对点通信延伸到了多元异构用户信息论，但严重缺乏显著的理论层面的进步与突破，特别是当前众多特定领域人工智能应用技术已达到性能瓶颈，亟待理论层面的革新，如引入符号逻辑、知识推理、因果关系等[15]。

二是设计实现全新的、通用的计算体系和感知体系。在当前算力充足的前提下，亟需将机器对不同类型大数据进行关联比对和分析计算的能力发挥到极致，如何衍生出全新的感知体系来丰富多源异构数据感知与获取能力，如何衍生全新的计算体系架构来有效治理和应用这些数据，在深度学习的各类研究与应用中非常重要

三是需要探索全新的芯片模态[16]。传统的冯·诺依曼架构已难以支持当前深度学习所需的计算要素。因此，亟需研发面向GPU、ASIC等的加速技术和异构混合计算技术并彻底形成新的芯片架构，同时配套开发相关适配的算法和模型，这已成为新老科技巨头（特别是集成电路制造商，如英特尔、AMD、谷歌等）正在攻关的重点。

06、结束语

深度学习是一个广阔的领域，围绕着一种形态由数百万甚至数十亿个变量决定并不断变化的算法——深度神经网络，几乎每隔一段时间就有大量的新算法提出来。总体而言，从算法层面，未来深度学习算法可以分为三种基本的学习范式：一是混合学习，解决深度学习算法如何跨越监督学习和非监督学习之间的边界以适应大量未使用的无标签数据的问题——混合学习试图跨越监督学习和非监督学习的边界；二是复合学习，解决如何以创造性的深度学习算法将不同的模型或组件连接起来以生成一个大于各部分之和的复合模型的问题——复合学习意在利用几种模式的知识，而非一种，迁移学习就是复合学习的一个明显例子；三是简化学习，解决如何减少深度学习算法的规模和信息流同时保持相同或更强的预测能力的问题，当前嵌入式人工智能时代需要轻量级人工智能——在保持性能的同时使神经网络更小。