一文详解阿里云《人工智能红利渗透与爆发》技术趋势

天承办公室 2020-09-04

展开全文

在全球范围内，人工智能的应用已经非常普及。根据 Statista 预计，人工智能市场增速将保持年均50.7%的增速增长，到 2025 年，全球人工智能市场规模将高达369亿美元，随着人工智能在图像（包括人脸）识别、语音识别、工业/制造业大脑、预测分析、自动化（包括自动驾驶）等方面的能力不断提升，数字经济时代的发展与人工智能应用的推进已经密不可分，零售业、医疗健康、金融行业、交通行业、教育行业、商业服务业、安全行业、农业等行业都将被人工智能深度渗透。但对于整个人工智能产业来说，在行业领域的高度渗透性并非是全部，人工智能发展存在着其独特并持续动态变化的发展现状。上个月，阿里云研究中心联合埃森哲发布了《中国企业2020》系列报告之《人工智能红利渗透与爆发》，从投资、产业、技术等角度阐述人工智能究竟是降温还是升温。下面，本文重点解读该报告的技术趋势部分，看从实验AI到产业AI存在哪些差距。

一、无监督学习正在突破通用智能

过去十年，机器学习在图像识别、自动驾驶汽车和围棋等领域取得了前所未有的进步。这些成功在很大程度上是监督学习和强化学习来实现的，这两种方法都要求由人设计训练信号并传递给计算机：在监督学习的情况下，这些是“目标”（例如图像的正确标签）;在强化学习的情况下，它们是成功行为的“奖励”（例如在Atari游戏中获得高分）。因此，强化学习也可以被认为是一种监督学习，这两者构成了当前机器学习的主要学习方式，也为机器学习构建了一个极限：人类训练师和数据量决定了机器学习的深度和精度。

很显然，机器学习如今遇到了瓶颈，无论是人类训练师还是数据量，都难以支撑机器学习更进一步地发展出高水平的人工智能，更不用提通用智能，人类和数据成为了通用智能发展的阻碍，无监督学习则是这一难题当前唯一的解决途径。

无监督学习是一种旨在通过奖励智能体（即计算机程序）来创建自主智能以便在不考虑特定任务的情况下学习其观察到的数据的范式。换句话说，智能体是为了学习而学习。无监督学习的一个关键动机是，虽然传递给学习算法的数据拥有很丰富的内部结构（如图像、视频和文本），但用于训练的目标和奖励通常都非常稀疏（例如，标签「狗」指的是尤其多变的物种，标签「0」或「1」表示游戏中的「失败」或「成功」）。这表明算法学到的大部分内容必须包括对数据本身的理解，而不是将这种理解应用于特定任务。

无监督学习研究的主要目标是预训练一个模型（称作“识别”或“编码”）网络，供其他任务使用。编码特征通常能够用到分类任务中：例如在ImageNet上训练会表现出很好的结果，这与监督模型非常接近。迄今为止，监督模型总是比无监督的预训练模型表现的要好。其主要原因是监督模型对数据集的特性编码的更好。但如果模型运用到其他任务，监督工作是可以减少的。在这方面，希望达到的目标是无监督训练可以提供更一般的特征，用于学习并实现其它任务。

目前，无监督学习主要有两类方法。第一类的典型代表是 BERT 和变分自编码器（VAE），它们使用深度神经网络重建输入。但这类方法无法很好地处理图像问题，因为网络最深层需要编码图像的细节；另一类方法由 Becker 和 Hinton 于 1992 年提出，即对一个深度神经网络训练两个副本，这样在二者的输入是同一图像的两个不同剪裁版本时，它们可以生成具备高度互信息的输出向量。这类方法的设计初衷是，使表征脱离输入的不相关细节。由于Becker 和 Hinton 使用的优化互信息方法存在一定缺陷，因此后来 Pacannaro 和 Hinton 用一个判别式目标替换了它，在该目标中一个向量表征必须在多个向量表征中选择对应的一个。

随着硬件的加速，近期表征对比学习变得流行，并被证明非常高效，但它仍然存在一个主要缺陷：要想学习具备 N bits 互信息的表征向量对，我们需要对比正确的对应向量和 2 N 个不正确的向量。2020年2月，Hinton和其团队推出的 SimCLR 无监督方法，无需类标签即可让 AI 学会视觉表示，而且可以达到有监督学习的准确度。论文作者表示，经过 ImageNet 上 1% 图片标签的微调，SimCLR 即可达到 85.8％的 Top-5 精度——在只用 AlexNet 1% 的标签的情况下性能超越后者。

二、实时强化学习受到追捧

机器学习被越来越广泛的进行应用，不仅是使用静态模型进行预测，还作为一些涉及动态实时决策的反馈环路的重要组件。这些应用提出了一组新的需求，单独地实现这些需求并没有什么难度，但是它们的组合却给现有的分布式执行框架带来了挑战：高吞吐量时的毫秒级延迟计算，在不同资源集上的任意任务图的自适应构造及执行异构核。比如用户在浏览网站时，可以根据用户历史行为数据来推送新闻。而一些新的涉及动态实施决策的业务，比如具备时效性的热点新闻，或是用户想要看点新东西，这就需要用一种新的算法来实现，即实时机器学习Real-Time Machine Learning。

以头条的核心技术“个性化推荐算法”为例，其核心原理就是根据用户对文章的历史行为数据反馈，进行统计挖掘和判断。比如具有相同偏好的三个用户，分别选择了自己喜欢的文章，得到最高票数的文章就会被推荐给被系统打上同一属性标签的第四个人……以此类推。不难发现，传统机器学习算法的成功，依赖于对用户的“知根知底”，需要用户不断开放自己的私人领地。而实时机器学习，更擅长对用户的当下需求体察入微，让用户在保持隐私安全感的同时，获得如沐春风的浏览体验。

实时机器学习是一项前沿的人工智能研究项目，2017年才由加州大学伯克利分校的研究团队发布了《Real-Time Machine Learning: The Missing Pieces》论文给出了实时机器学习应用运行于分布式系统的七大要求，并提出了一种能够满足这些要求的解决方案。实时强化学习是实时机器学习的一个分支，实时强化学习能够为推荐、营销系统带来强大的技术升级，用户反馈分钟级回流回来，在线更新模型。实时强化学习的应用领域非常广泛，比如说，新闻网站或是电商促销，每天都有新资讯、新促销，用户还在不断创造内容，可供推荐的内容既在不断累积，也在不断变化。模型的准确率来自于对数据的学习，数据变了，自然模型就要变，否则给出的智能推荐，提供的AI服务，用户肯定不满意，但如果现在还只是10-30分钟做一次的模型更新，未来能做到1分钟之内就更新一次，用户的满意度将获得极大的提高。

随着实时强化学习的逐渐成熟，未来商业领域能够做出效益最高的模型，效率最好的架构，而且，以后这些模型的生成都是机器自动实现的，不需要人工干预，当然，现在的人工智能还都只是“数据智能”，远未达到“知识智能”的阶段，机器还做不了基于知识推理（即缺乏常识），这是做人工智能的人未来几年要突破的方向。

三、对实时决策的需求推动边缘人工智能发展

近年来，随着万物互联时代的到来和无线网络的普及，网络边缘的设备数量和其产生的数据量都急剧增长。根据Cisco云指数的预测，到2021年，全球范围内将有超过500亿的终端设备，这些设备每年产生的数据总量将达到847 ZB，其中约有10%的数据需要进行计算处理。另外，智能终端设备已成为人们生活的一部分，人们对服务质量的要求有了进一步提升。在这种情况下，以云计算为代表的集中式处理模式，由于实时性不够、带宽不足等问题，将无法高效地处理边缘设备产生的数据，无法满足人们对服务质量的需求，于是边缘计算模型应运而生。

边缘计算是部署在边缘终端设备和云计算中心之间的一种新型计算模型。边缘计算的资源是指从数据源到云计算中心路径上的任意计算和网络资源，是一个连续系统。在该模式下，边缘设备上亦有计算。边缘计算具有几个明显的优点：首先，边缘设备处理了部分产生的临时数据，不再需要将全部数据上传至云端，只需要传输有价值的数据，这极大地减轻了网络带宽的压力，且减少了对计算存储资源的需求。其次，在靠近数据源端进行数据处理，能够大大地减少系统时延，提高服务的响应时间。

另一方面，人工智能的出现，具有对数据实现加速处理的特定，已成功应用于目标识别、智能搜索、语言处理、智能交通等领域。然而，由于人工智能方法包含大量的计算，当前人工智能大部分计算任务部署在云计算中心等大规模计算资源集中的平台上，这极大地限制了人工智能带给人们的便利。为此，边缘智能应声而出。边缘智能是指终端智能，它是融合网络、计算、存储、应用核心能力的开放平台，并提供边缘智能服务，满足行业数字化在敏捷连接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。将智能部署在边缘设备上，可以使智能更贴近用户，更快、更好为用户地提供智能服务。

边缘智能不是边缘计算和人工智能的简单结合，虽然目前国际上尚未建立边缘人工智能的标准架构和统一算法，但各大厂商已经开始在相关领域进行探索。谷歌、亚马逊和微软等传统云服务提供商推出了边缘人工智能服务平台，通过在终端设备本地运行预先训练好的模型进行ML（Machine Learning，机器学习）推断，将智能服务推向边缘。此外，市场上已经出现多种边缘人工智能芯片，如谷歌edge TPU、英特尔Nervana NNP、华为Ascend 910和Ascend 310等。

另外，还有很多企业都试图在智能手机、汽车甚至可穿戴设备等边缘设备上运行人工智能算法，而不是跟中心云平台或服务器通信，使得边缘设备具备了在本地处理信息的能力，并且可以更快速地对情况做出响应。边缘人工智能对消费者电子、电信、医疗影像等主流行业均有应用意义。比如说在监控摄像头上运行人脸识别、肩颈识别等人工智能算法，可以快速提供安防威胁识别，如果结合本地数据存储，则能够更进一步发现和定位安全威胁嫌疑人，此外，边缘人工智能在即时驾驶决策、婴儿监视器、无人机、机器人视觉能力（无互联网连接）等方面也具有非常积极的价值。

需要指出的是，边缘人工智能具有减少延迟、快速做出决策的优势，但也存在计算和存储能力受限的问题，因此边缘人工智能未来将与云端人工智能构成混合模式，从而提供更好的人工智能服务。

四、人工智能正变得性能更高和理解人类

众所周知，人工智能技术的发展需要三个要素：数据、算法和算力。今天的人工智能热潮主要是由于机器学习，特别是深度学习技术在大数据、大算力的支持下取得的巨大进展。训练深度神经网络往往需要面临三个问题：

时间：训练一个 CNN 或 RNN 通常需要数周的时间。这还不算上为了达到所需的性能表现，花在定义问题以及编程深度网络时迭代成败上的数周甚至数月的时间；
成本：数百美元GPU连续数周的计算成本高昂，这还没开始算上人力成本。完成一个 AI 项目往往需要要占用最优秀人才数月、一年甚或更多的时间；
数据：由于缺乏足够数量的标注数据而使项目无法展开的情况比比皆是。由于无法以合理的价格获取训练数据，很多好创意被迫放弃。

因此，取得较好商业表现的多是图像处理、文本和语音识别。根据斯坦福百年研究（AI100）发布的全球“2018年人工智能指数”（AI Index）报告显示，就人工智能性能而言，“能力持续飙升”，特别是在计算机视觉等领域。通过测量广泛使用的图像训练数据库ImageNet的基准性能，该报告发现，启动可以按照最新精度对图片进行分类的模型所需的时间从“大约一小时到大约4分钟”下降在短短18个月内。

这相当于训练速度大约提高了16倍；其他领域，如对象分割，这是软件区分图像的背景和主题，在短短三年内，精度提高了72％；对于机器翻译和解析等领域，软件可以理解语法结构，更容易回答问题，准确性和熟练程度越来越高；在识别表情方面，计算机已经可以超越人类，MIT媒体实验室数据显示，对于真笑和苦笑的实验中，机器学习的成功率是92%，大幅优于人类。不过虽然情感计算已经深入生活，而要让机器人更加懂你却并非易事，还需要人机交互、心理学、认知学等多学科领域共同努力。

从长远看，克服速度与成本、提升人工智能性能，要从高性能计算、神经形态计算和量子计算方向发展。

在高性能计算方面，芯片制造商以及以及谷歌等巨头正在开展竞争，争相打造深度学习专用芯片。比如NVIDIA A100 GPU和DGX SuperPOD系统当选全球AI训练领域速度最快的市售商用产品。目前，包括AWS、百度云、微软Azure和腾讯云等全球领先的云提供商都在使用A100以应对AI、数据科学和科学计算中最为复杂的挑战。其中有些正在赋能新一代的推荐系统或对话式AI应用，或进一步探索新冠病毒的治疗方法，这些都在受益第八代NVIDIA GPU所带来的迄今为止幅度最大的性能提升。

另外两个，神经形态计算（也被称为脉冲神经网络）和量子计算看起来似乎还需要几年。但事实是商用神经形态芯片和商用量子计算机已投入应用于机器学习之中。例如，在神经形态计算芯片应用方面，BrainChip Holdings 已经在拉斯维加斯最大的赌场应用了商业安防监控系统，并且它宣称还有一些其他应用也已经交付。在拉斯维加斯，该系统的功能就是通过标准摄像头的视频流自动监控dealer的错误，该系统完全通过观察学习游戏规则；在量子计算应用方面，IBM于2019美国CES展以及IBM Think大会上，展示了目前全球唯一一台脱离实验室环境运行的量子计算机“IBM Q System One”，该量子计算机拥有20个量子位的计算力。

总之，神经形态计算和量子计算都是很有潜力的方向，它们都有可能令深度学习甚至是新型人工智能更快地运行。

编辑：黄继彦

——END——

想要获得更多数据科学领域相关动态，诚邀关注清华-青岛数据科学研究院官方微信公众平台“ 数据派THU ”。