百度人工智能详细分析

mrjiangkai 2017-10-29

展开全文

百度人工智能详细分析

本文源自太平洋证券人工智能专题研究之一

证券分析师王文龙、徐中华

信息化顾问团杨凯整理

百度AI平台将逐步开放，助力构建百度AI生态圈

“云+大脑”打磨升级构成百度AI平台

百度AI开发者大会（Baidu Create 2017）上，百度AI平台架构图首次完整亮相，全新开放了视频、语音、AR/VR、机器人视觉、自然语音处理等五大类目共14项全新能力，此次开放的技术能力总共有60个，是目前最全面的AI技术开放平台。百度AI平台由百度大脑及百度云组成，分为云、大数据、算法层、感知层、认知层、平台层五大层次，核心能力的开放已达60余项。

百度人工智能详细分析

图表1：百度AI平台的架构

作为百度AI平台的核心，百度大脑由算法层、感知层、认知层、平台层共同组成，是业界第一个完整清晰地把认知层和感知层放在一起的人工智能平台。

算法层包括大数据、深度学习，是百度大脑的底层基础。
感知层包括语音识别、图像识别、视频理解和增强现实/虚拟现实4大核心技术能力，赋予机器“听懂、看懂”的能力；
认知层包括领先的自然语言处理、知识图谱、用户画像能力，赋予机器“理解”能力。
平台层即百度AI开放平台，集合了百度所有的AI能力并将逐渐开放给所有开发者。

百度人工智能详细分析

图表2：百度大脑各层次能力

多领域在人工智能方向进行战略构建

百度自2013年1月组建专注于Deep Learning（深度学习）的研究院—Institute of Deep Learning（简称IDL）开始，百度便已经积极布局人工智能：

机构设立方面：公司先后成立自然语言处理部（2010年）、百度硅谷人工智能实验室（2014年）、自动驾驶事业部（2015年）、度秘事业部（2017年）、AR实验室（2017年）、智能驾驶事业群组（IDG，2017年）、深度学习技术及应用国家工程实验室（2017年）等。其中：今年3月22日，百度通过内部邮件宣布进一步深度整合包括NLP、KG、IDL、Speech、Big Data等在内的百度核心技术，组成百度AI技术平台体系（Artificial Intelligence Group，简称“AIG”）。近期，百度对AIG进行了调整：

单独成立智慧机场业务部、智能客服与金牌销售业务部。智慧机场业务部重点面向航空服务领域；智能客服与金牌销售业务部，融合语音识别、自然语言处理等前沿技术，提升企业与客户电话沟通中的效率和效能。该技术通过对呼叫中心的通话历史语音进行分析，提取客户画像、优秀销售经验，并在通话过程中进行实时语音识别及分析等方式，结合当前客户情况与销售特点，个性化推荐适合的销售思路与话术要点。
强化了AI应用技术研发，原隶属于研究院的几个技术团队升格为独立的技术部门，包括视觉技术部、人脸技术部、增强现实技术部等。
成立AI技术平台与生态部，进一步整合推动百度所拥有的自然语言处理、知识图谱、深度学习、语音图像、大数据等技术。

人才储备方面：2017年，百度与北京航空航天大学合作设立人工智能专业；目前，BAT的AI人才布局中百度总数领先，占比2.54%。

技术落地方面：语音开放平台上线（2013年）、DeepSpeech深度语音识别系统（2014年）、小度机器人（2014年）、全球首个基于深度学习的大规模在线翻译系统（2015年）、机器人助理“度秘”（2015年）、无人驾驶汽车相关技术（2015年）、AR技术帮助伊利等零售商进行营销（2016年）、针对移动设备打造的增强现实平台“度视”（2016年）、医疗大脑等百度大脑（2016年）、百度输入法4.0引入人工智能（2016年）、百度AR先后与欧莱雅合作，带来全新广告营销方式（2016年）、与KFC合智能推荐点餐（2016年）、与神农架合作AR观山（2016年）、《但丁密码》AR面具海报（2016年）、G-1智能高清机顶盒（2016年）、乌镇世界互联网大会人脸识别闸机（2016年）、海尔与美的搭载DuerOS打造智能家居（2017年）、家庭陪伴型机器人“分身鱼”（2017年）、国航用人工智能进行人脸识别（2017年）。
资本投入方面：自2016年开始，公司先后投资美国科技公司ZestFinance、激光雷达公司Velodyne LiDAR、人工智能语音助手平台开发商Raven Tech、计算机视觉公司xPerception、以色列视频捕捉技术公司Pixellot、投资上海汉枫科技及室内导航公司IndoorAtlas、参股新西兰VR/AR/3D成像公司8i、收购专注于语音唤醒和自然语言理解的人工智能创业公司KITT.AI（2017年）等。

2017年1月，陆奇先生加入百度担任集团总裁兼CEO，围绕人工智能在集团架构、业务以及人事方面大刀阔斧进行改革，包括将自动驾驶事业部（L4）、智能汽车事业部（L3）、车联网业务（Car Life etc）合并组建新的智能驾驶事业群组（IDG），并向汽车行业及自动驾驶领域的合作伙伴提供一款名叫Apollo的开放软件平台。

国外方面，Amazon、Facebook布局人工智能主要是为了智能其各自的传统主业以使自身在各自领域保持竞争力，而Google及IBM则是从集团层面对其人工智能生态建设进行了整体规划。国内方面，阿里巴巴在人工智能方面的行动主要是针对具体的应用场景进行智能化，而腾讯则主要是通过在各事业部组建AI团队来推进集团人工智能的发展。

图表3：其他科技巨头在AI的布局概况

公司名称	布局细节
Google	1、谷歌大脑：创建于2011年，目标是创造更智能的软件和系统，从而改善人的生活。研究领域包括机器学习算法和技术、用于机器学习的计算机系统、自然语言理解、感知、医疗、机器人、音乐与艺术生成等。TPU、TensorFlow均来自谷歌大脑。2、谷歌NLU：专注于自然语言理解的团队，与谷歌大脑是并列存在的关系。最新研究兴趣包括句法、语篇、对话、多语言建模、情绪分析、问答、概述、使用有标记和未标记的数据与最先进的模型和间接监督来构建更好的学习系统。目前公开的最重要的成果就是被称为“世界准确度最高的自然语言解析器SyntaxNet”。这是一个基于TensorFlow的自然语言理解神经网络。谷歌在该平台上训练的模型的语言理解准确率超过90%。3、谷歌欧洲研究院：2016年6月在苏黎世成立，研究领域为机器学习、自然语言理解、机器感知及数据压缩。4、DeepMind：2010年在英国成立，2014年被谷歌以4亿英镑收购，收购后仍保持独立运行，专注于深度强化学习，研究目标是通用人工智能。AlphaGo是DeepMind最知名的项目。2017年7月5日，DeepMind表示将在加拿大埃德蒙顿开设第一家AI研究中心。5、机器学习忍者项目：从谷歌内部团队挑选有天赋的约20名程序员，为期6个月的人工智能人才培养项目。与谷歌大脑有合作关系。6、工程师团队：谷歌25000名工程师中，有数以千计的人熟练掌握机器学习。7、应用：谷歌云机器学习API、翻译、Waymo（前谷歌无人车部门，现在是Alphabet子公司）、Inbox等。8、收购：语言与图像识别、生物识别、深度学习、智能家居、机器人领域的公司。
Facebook	1、Facebook人工智能实验室（FAIR）：2013年12月成立，是Facebook的AI基础研究实验室，目标是推动机器智能领域的进步。这是Facebook人工智能技术的核心部门。2、工程团队：直接负责对接到Facebook的核心功能，比如广告、搜索、新闻流、密钥和Instagram。3、FBLearner Flow平台：于2014年底在FAIR内部研究，后转交给AML团队，是Facebook研发基于AI的产品的支柱。这个平台能帮助任何工程师轻松地开启和管理机器学习实验，而无需处理硬件基础架构。每月运行约120万的实验。4、应用机器学习部门(AML)：成立于2015年9月，是科学突破与产品使用连接起来的部门。包括4个主要团队：核心机器学习、计算摄影、语言技术及自然语音识别。5、Language Technology团队：该团队在AML保护伞下，专注于开发翻译、语音识别和自然语言理解，是部署实际软件的地方，而FAIR是推动Facebook人工智能实验的地方。6、Lumos：2016年11月首次披露，构建在FBLearnerFlow之上，是专用语图像和视频理解的AI平台。7、收购：图像和语言理解领域的公司。
IBM	1、商业解决方案Watson：2014年1月初，IBM宣布组建“Watson Group”，旨在进一步开发、商用及增强“Watson”及其他认知技术。同时，IBM还推出了两项Watson数字顾问服务，一项用于帮助企业从海量数据获得洞见，另一项则旨在使得数据可视化。2014年3月，Waston开始与纽约基因中心合作。5月，IBM通过Watson收购了人工智能创业公司Cognea，该公司为用户提供个性化虚拟助手服务。2015年，Watson被部署在IBM 2014年收购的云计算基础设施业务Softlayer上。2016年，以肿瘤为重心，Watson在慢病管理、精准医疗、体外检测等九大医疗领域中实现了突破。2、AI技术：语音语义、深度学习神经网络（收购了AIchemyAPI）3、云平台：IBM Bluemix开放云技术平台（PaaS+7种IBM Watson服务）、机器学习平台SystemML4、硬件：TrueNorth（SyNapse成果）5、产业布局：深蓝、与苹果、软银进行智能机器人合作、VR游戏、物联网、医疗服务6、收购：认知计算、搜索、人机对话、数据分析领域的公司
Amazon	1、服务：Amazon Lex、Amazon Polly以及Amazon Rekognition，分别定位于可编写自然人机交互、语音转换服务以及图像识别。2、平台：Amazon ML、Spark & EMR、Kinesis流数据处理平台、Batch批次处理、ECS3、引擎：MXNet、TensorFlow、Caffe、Theano、Pytorch、CNTK4、基础设施：GPU、CPU、IoT、移动5、1492团队:旨在发掘医疗行业中的新机会，同时关注软件和硬件项目。目前，他们正在试图从传统电子医疗档案中挖取和整合数据；希望建立一个远程医疗的平台；探索基于Echo和Dash Wand的医疗应用等6、收购：图像识别、图像与语言理解领域的公司
阿里巴巴	1、AI部门：iDST（数据科学与技术研究院）、阿里人工智能实验室、NASA计划、参与“工业大数据应用技术国家工程实验室”、与清华北大一起搭建大数据系统软件国家工程实验室2、AI产品线：ET大脑（工业、医疗、环境）、ET基础服务（机器学习、智能语音、人脸识别、印刷文字识别、人机对话）3、资本布局：战略投资日本机器人公司SBRH、入股山西嘉世达机器人
腾讯	1、AI机构：人工智能实验室（AI Lab，负责基础性研究工作）、各个事业部都有AI团队（负责AI应用研究）2、应用方向：游戏AI、社交AI、内容AI、工具型AI3、智能产品：小冰、小微、云搜和文智、优图人脸识别、QQ物联、微信硬件平台、叮当智能语音助手、绝艺（类似AlphaGo）、深度学习平台DI-X4、资本布局：投资Diffbot、iCarbonX（碳云智能）、CloudMedX、Skymind、Scaled Inference；战略入股搜狗；购买特斯拉5%股票。

可以看到，百度在AI方面的布局已经相对完善，无论是从AI部门的设置、集团战略定位，还是从开放的各类技术平台，均能够帮助百度更快地构建生态圈，以此带来更多场景应用的落地。

AI平台开放、百度生态建设延伸至端

百度AI平台以百度智能云为基础、百度大脑为核心，目前开放DuerOS和Apollo两大平台向终端下沉，与云端一起初步构建起AI生态圈。同时，深度学习开放平台PaddlePaddle具备易用、高效、灵活和可伸缩等特点，使程序员可以快速应用深度学习模型来解决各种实际问题，加快实验室技术在各类场景的应用落地，促进百度AI生态的扩散。

百度人工智能详细分析

图表4：百度AI平台与生态构建

百度AI平台的开源有助于百度吸引更多优秀的开发者参与进来，在帮助完善AI平台功能的同时，培养用户的使用习惯，构建起开发者生态。此外，还可以通过开发者使实验室技术更快地在具体场景落地。百度可凭借开放的平台寻找到更多的合作者，构建起合作伙伴生态，共同推出行业解决方案和生态合作方案。

DuerOS：开放的对话式人工智能系统

百度在2017CES上推出了DuerOS。此外，百度还发布了DuerOS智慧芯片，具有：“三低、三高”的特点—低成本、低门槛、低消耗、高安全、高集成、高附加。这款DuerOS智慧芯片已将DuerOS与紫光展锐RDA5981完美集成；还采用了ARM公司mbed OS内核及其安全网络协议栈，实现了与云端的安全连接，降低了设备商应用开发门槛。

7月15日，在Baidu Create 2017上，度秘事业部总经理景鲲发布了DuerOS开放平台。该平台以DuerOS对话系统为核心层，应用层为智能设备开放平台，能力层为技能开放平台。其中技能开放平台目前已经拥有10大品类、100多项原生技能且支持第三方资源和内容接入。作为中国版Alexa，未来百度将以DuerOS为切入点，进一步推动集团人工智能生态的构建。

百度人工智能详细分析

图表5：DuerOS开放平台整体架构

【参考资料：Alexa】

Alexa是Amazon推出的一款语音助手，可以对语音指令进行处理并做出语音回复或执行相应操作，截止2017年6月底，Alexa语音助手已拥有超过1.5万项技能，比官方2月份公布的1万多项增长了一半多。

百度人工智能详细分析

图表6：语音助手技能数量（单位：项）

目前Alexa主要应用于智能音箱、智能家居、可穿戴设备、购物助手等。亚马逊允许设备制造商通过使用Alexa语音服务（AVS）将Alexa不断增长的语音功能集成到自己的连接产品中。该语音服务（AVS）是一种云服务，提供基于云的自动语音识别（ASR）和自然语言理解（NLP）。

Alexa的语音识别系统框架主要包括四大块：信号处理（Signal processing）、声学模型（Acoustic model）、解码器（Decoder）和后处理（Post processing）。

首先将收集来的声音进行一些信号处理，将语音信号转化到频域，每10毫秒的语音生成一个特征向量，发送到后面的声学模型。声学模型把音频分成不同的音素。接下来解码器可以解出概率最高的词串。最后一步是后处理，把单词组合成易读取的文本。

百度人工智能详细分析

图表7：Alexa语音识别步骤

其中，声学模型就是一个分类器，输入的是向量，输出的是音频类别对应的概率。该模型是一个典型的神经网络，底部是输入的信息，隐藏层将向量转化到最后一层里的音素概率。

一个美式英语的Alexa语音识别系统，会输出美式英语的音素。以美式英语为基础的Echo，录了几千小时的美式英语语音来训练神经网络模型，这个成本非常高。但是，世界上还有很多其它的语言，比如德语，如果再从头用几千小时的德语语音训练，成本太高。所以，这个神经网络模型有趣的地方就是可以“迁移学习”，它可以保持原有模型中其它层不变，只把最后一层换成德语。两种不同的语言，音素大部分是不一样的，但是仍然有不少相同的部分。因此，仅使用少量的德语语音数据，就可以在稍作改变的模型上得到较准确的德语结果。

现在，DuerOS可以将搭载Alexa的智能音箱变成能听懂中文。未来，百度将把DuerOS打造成AI时代的“安卓”，为AI开发者铺垫好技术基础，帮助其更方便快捷地开发智能语音交互设备，从而打造以DuerOS为入口的智能语音生态链。

Apollo：自动驾驶开放平台

百度AI的核心突破口当属自动驾驶，首先是成立智能驾驶事业群组（IDG）。紧接着于今年4月在上海车展上发布了“Apollo”计划，向汽车行业及自动驾驶领域的合作伙伴提供开放的、完整的、安全的软件平台，帮助他们快速搭建一套属于自己的自动驾驶系统。Apollo开放平台的发布标志着百度在人工智能的系统级开放进程更进一步，这也是全球范围内自动驾驶技术的第一次系统级开放。百度将致力于将Apollo打造成汽车工业时代的安卓，但是比安卓更开放、能量更大。

7月5日百度AI开发者大会上，百度首次对外公布Apollo详细的路线图、技术框架以及首期开放Apollo 1.0的能力。会上，百度宣布Apollo生态合作伙伴联盟规模超50家，目前Apollo生态合作伙伴联盟已辐射OEM、Tier1、地图公司、芯片公司、基金投资、个人开发者、创业公司、研究机构及政府机构等，成为全球最强大的自动驾驶生态。

Apollo将提供一套完整的软硬件和服务系统，包括车辆平台、硬件平台、软件平台、云端数据服务等四大部分。此外，百度还将开放环境感知、路径规划、车辆控制、车载操作系统等功能的代码或能力，并且提供完整的开发测试工具。并且，百度还会在车辆和传感器等领域选择协同度和兼容性最好的合作伙伴，推荐给接入Apollo开放平台的第三方合作伙伴使用，进一步降低自动驾驶的研发门槛。

Apollo核心技术的总体技术框架由4个部分组成：

Apollo的开放的软件平台，核心有四个模块：

（1）自定位模块，百度具备业界领先的高精地图与传感器的能力融合，能够为每一个车辆提供低成本、全天候的精准定位。
（2）感知模块，感知是自动驾驶工业当前的创新重点，百度的感知模块将多个传感器组合在一起，通过人工智能技术，使每一辆车都能看清、看懂路况，看到每一个行人、每一个车辆、每一个障碍物。
（3）车辆规划控制，使用AI+大数据以及最安全的驾驶策略，可以精准控制每一辆车，同时可以适合各个不同的路况。
（4）底层的运行框架，核心是安全性、可靠性和实时控制，能支持Intel和NVIDIA不同的芯片。

Apollo的服务平台：

（1）高精地图服务，是自动驾驶的基础。
（2）仿真引擎，快速累积海量的数据，能够使开发者日行百万公里。
（3）安全服务。百度将为开发者提供持续、高度安全的服务。
（4）DuerOS，为每一辆提供智能化车内体验。参考硬件平台和参考车辆平台，能支持各种各样的不同的计算硬件，从CPU到GPU到FPGA。同时还支持各种不同的传感器，从GPS到IMU到摄像头、激光雷达、雷达等等。通过将各个模块的融合，Apollo为每一个开发者提供了从零到一的能力进入自动驾驶研发。

百度人工智能详细分析

图表8：2017年7月发布的Apollo路线图

百度人工智能详细分析

图表9：Apollo平台开放情况（紫色为Apollo1.0开放部分，红色部分为Apollo1.5开放部分）

2017年9月20日，百度宣布Apollo1.5正式开放，包含障碍物感知、决策规划、云端仿真、高精地图服务、端到端的深度学习（End-to-End）等五大核心开放能力，并支持昼夜定车道自动驾驶。其中，原本计划于年底开放的端到端的深度学习（End-to-End）在9月20日宣布提前开放。

能力一：障碍物感知

感知模块的目标是在给定从激光雷达传感器获得的三维点云数据后提供感知障碍的能力。它能检测、分段和跟踪以高精度地图ROI方式定义的障碍。此外，它预测障碍物的运动和姿态信息(如航向、速度等)。核心的3D感知模块是基于大规模点云数据训练的深度卷积神经网络(CNN)的障碍物检测和分割算法，包括高精地图ROI过滤、基于CNN的障碍物检测与分割、MinBox障碍物框构建和HM物体跟踪。

图表10：3D感知模块的组成部分

模块	子模块	描述
感知核心模块	高精地图ROI过滤	高精地图ROI过滤算法根据地图定义的ROI，对其外部的点云进行过滤。它的主要目标在于过滤掉一些无人车不关注的背景物体（例如道路周围的建筑物、树木等），以便让后续算法只关注道路上的障碍物。
	基于CNN的障碍物检测与分割	经过高精地图ROI过滤后,不在ROI区域内的背景障碍物（比如建筑物，树木等）已去除。因此，对ROI内部（比如可行驶道路和交叉口）的点云进行物体检测和分割，从而得到前景障碍物例如小轿车、卡车、自行车、行人等。该算法基于全卷积深度神经网络学习点云特征并预测障碍物的相关属性，并根据这些属性建构邻接图进行基于连通片分析的障碍物分割。该算法将先进的深度学习技术引入到点云障碍物检测领域，能够从大量数据中学习有效特征进行障碍物的检测与分割，其分割精度远远优于传统方法。
	MinBox障碍物框构建	MinBox障碍物框构建3D框构架算法为检测和分割出的障碍物建立相应的边界框。由于遮挡和离LiDar距离较远问题等问题，障碍物的点云可能非常稀疏或者只覆盖某一部分。inBox障碍物框算法能够根据检测到的障碍物点构建出最符合其朝向的边界框。
	HM物体跟踪	HM目标物体算法用于跟踪ROI中检测和分割得到的障碍物。该算法将当前帧检测到的障碍物与之前跟踪到的物体进行关联、删除老的跟踪物体、生成新的跟踪物体，形成最终的跟踪表输出，并预测障碍物的位置，速度和朝向等信息

止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主机厂、Tier1供应商、开发者生态公司。同时百度宣布Apollo基金“双百计划”，将在三年内投入100亿资金，完成超过100家项目的投资，未来将进一步壮大Apollo平台的生态联盟。

能力二：决策规划

决策规划模块根据实时路况、感知模块输出的信息、道路限速等信息做出相应的轨迹预测和智能规划，同时兼顾安全性和舒适性，提高行驶效率。决策规划模块主要由障碍物检测、路径规划、选择与控制三部分组成。

图表11：决策规划模块的组成部分

模块	子模块	描述
决策规划模块	障碍物预测	将位置模块得到的定位信息（车辆的位置、速度与加速度）与感知核心模块中得到的障碍物信息（如位置、方向、速度、加速度）结合，预测障碍物之后一系列可能的运动方式（如速度和路径）及各种运动方式对应的概率。目前预测方式有三种：路径预测、自由（随机）移动预测、障碍物运动区域预测。
	路径规划	基于定位信息、感知核心模块提供的障碍物信息、对障碍物运动的预测，同时考虑安全与舒适度，计算出车辆运行的无障碍路径。
	选择与控制	根据当前车辆的状态、规划功能给出的路径以及车上人员发出的指令，运用不同控制算法生成指令（如转向、减速、刹车）并传递给汽车。

能力三：高精度地图

高精度地图与普通电子地图的主要区别是高精度地图拥有更精确的车辆位置信息和更丰富的道路元素数据信息，起到构建类似于人脑对于空间的整体记忆与认知的功能，可以帮助汽车预知路面复杂信息，如坡度、曲率、航向等，更好地规避潜在的风险。是实现自动驾驶的关键所在。此外，高精度地图还起到了车辆间共享路况信息、识别交通标志的作用。

能力四：云端仿真

其中开放云端仿真功能作用极为重要，在正常的产品开发过程中，良好的仿真测试环境将方便产品开发者在模拟环境中快速测试产品的性能、可靠性等，加快产品的迭代测试周期从而提高产品测试效率：

图表12：云端仿真功能的作用

开放内容	功能模块	功能子模块	描述
开放功能		内置高精地图的仿真场景	基于不同的路型，基于不同的障碍物类型，基于不同的道路规划，基于不同的红绿灯信号。
		场景上传调试	支持同时多场景的高速运行，支持单算法模块的上传运行，支持系统整套算法和运行环境的上传与运行。
		智能场景通过判别系统	本期开放5个判别标准：碰撞检测，闯红灯检测，限速检测，在路检测，到达目的地检测
		3D展示功能	提供实时路况，算法模块输出的可视化信息，以及无人车本身状态的全局信息。
开放能力	核心能力	智能陪练	该功能可以让自动驾驶路测更安全。
		真实场景重建和多算法认证	在真实交通流复现的基础上，支持感知、规划、控制多算法模块验证，让自动驾驶算法验证更为严谨。
		日行百万	提供不间断的仿真测试，通过多次快速迭代来自动优化算法结果，让自动驾驶技术的发展更高效。
解决方案	发现问题	允许开发者定义和选择各类评判打分标准，在云端仿真器中运行场景并发现问题。
	解决问题	查问题场景反映出的现象，进而改进或替换系统里的相应模块，再次运行场景，直到问题解决。
	验证问题	可自动拉取核心场景资源，针对测试中产生的问题，快速验证新算法，并支持单步调试与验证。此外，还提供不间断的仿真测试，通过多次快速迭代来自动优化算法结果，做到研发全流程支持。

能力五：端到端

按照2017年7月百度发布的规划，端到端深度学习能力比原定的2017年12月提前了3个月，开放速度有所加快。本次开放的障碍物感知和决策规划能力使车辆能够实现不分昼夜的精准障碍物识别，并能通过深度神经网络精准预测行驶路径，从而做出最终的驾驶决策。

百度IDG部门的郁浩在百度技术沙龙上的演讲中提到，和Apollo中端到端学习相对的是传统无人驾驶项目中主要使用的规则式系统，这是过去二十多年无人驾驶研究的主流方向。规则式系统从车辆开始是一个闭环：从车辆到车上的传感器，获取输入信息，这些信息经过感知层处理，提取出道路、行人和车辆等各种信息。在感知到的信息的基础之上，再加入高精地图等一些静态信息，把动态信息和静态信息结合到一起形成较完备的世界模型（World Model）——对外部环境的完备描述。在此基础之上就可以进入到决策模块产生决策，然后控制模块把决策信号传递给车辆。

百度人工智能详细分析

图表13：规则式系统

上图是一个很简单的闭环模式，也有很多人提出了相关的或类似的架构，比如国际汽车工程师学会（SAE）在上边闭环的基础上，更细化分成大环、小环和各个模块之间的关系。

百度人工智能详细分析

图表14：国际汽车工程师学会（SAE）推荐的系统架构图

为了使规则式系统能够满足自动驾驶的需要，需要不断细化、得到更复杂的功能模块图，真正系统落地时往往有上千个模块。因此规则式系统有3个特点：

系统十分复杂，需要人工设计上千个模块；
高精地图成本很高：规则式系统对外界有很大依赖，高精地图精度要到厘米级。这也带来需要及时更新等问题；
对车载硬件计算能力要求很高，规则式系统中每一个模块都有相应的深度学习应用，部署在车上的每个模块都对计算资源需求很高，车上可能需要运行几个，甚至十几个深度学习网络。

简单地归纳一下，与规则式系统相比，端到端学习更像是在模拟、贴合人的思考过程，包括人的下意识思考。相对规则式系统而言，端到端学习成本更低，但需要大量优质数据来让机器进行学习、筛选各种情况下有效的路径。

百度人工智能详细分析

图表15：Rule based与End-to-End比较

端到端的已有案例

Apollo1.5的合作者Momenta基于定车道昼夜自动驾驶能力，很快完成了实车验证。实际道路测试表明，搭载了Apollo1.5的平台即使在夜间可视度不佳的情形下，依旧能完成各种复杂的交通场景识别。

另一个合作伙伴智行者科技在Apollo平台上打造的无人驾驶扫路车，目前已经在北京一家园区正式落地，开创了Apollo自动驾驶作业车的先例。2017 CES Asia展会上，百度联合长城汽车、NVIDIA，在哈弗H7展示了基于单目摄像头+百度深度学习技术的端到端自动驾驶解决方案，进行了公开试乘。

百度人工智能详细分析

图表16：封闭园区的固定路线的接驳

Apollo平台目标实现生态，开源广纳合作者参与

自Apollo1.0发布2个多月后，其在知名开源平台Github上已经聚集了6000多的开发者，位居开源平台前列。Apollo GitHub将自己定义为一个开放的、完整的、安全的自动驾驶平台，以灵活和高性能的技术架构，为全自动驾驶提供支持。

Apollo开源代码资源可以分为三部分，分别是apollo、apollo-platform、apollo-kernel。

第一部分，apollo该部分有入门文档，介绍了Apollo的基本信息。modules文件夹中是各个模块（如感知模块perception，预测模块prediction，端到端e2e）的开源内容。还有一些其他文件夹：docker沙箱，scripts脚本，third_party第三方开源代码，tools工具。说明文档推荐使用已经设置好的沙箱模式。

第二部分，apollo-platform该部分内容用来提供平台支持，目前主要是一套经过修改的ROS（机器人操作系统）。

第三部分apollo-kernel，该部分内容用来提供核心支持，目前Apollo核心使用的是修改过的Linux Kernel 4.4.32。

Apollo生态链及标的公司

无人驾驶快速落地，行业生态起到了关键性作用，对比手机的Android系统来看，在Android系统2009年面世之前，各个手机厂家都有自己的操作系统，而在Android系统出来后，短短几年内，各大手机厂商操作系统都统一在开源的Android系统之下(苹果公司的IOS除外)，而没有跟上这个趋势的厂商(如诺基亚、摩托罗拉等)很快就销声匿迹了。现在Apollo平台，正如Android系统初生之时，在国内有一统平台的潜质，Apollo目前已经拥有70多家合作伙伴，已有多家合作伙伴采用公司的平台进行产品研发，未来前景良好。因此，如果关注A股上市公司，建议投资者重点关注参与到Apollo产业链的公司，尤其是那些细分行业的龙头，具有良好的爆发性机会。

图表17：Apollo合作伙伴分类

分类	合作伙伴	当前及潜在合作机会
高校(5家)	北京航空航天大学、北京理工大学、清华大学、上海交通大学、同济大学	前沿技术探索及研发合作等
政府相关(5家)	北京亦庄等	场地支持及政策支持等。如在北京亦庄示范区封闭试验场预计将于2017年底建成并对外提供服务，其一期建设内容为占地面积600亩的模拟特大城市交通场景的智能网联汽车测试基地，将容纳国内外各类车型进行研发试验与测试。
汽车制造商(19家)	北京汽车、北汽新能源等	在智能汽车的多领域进行合作，重点在于Apollo平台在各个汽车厂的汽车产品上的落地，这需要车厂提供相关的接口和研发支持。如何北京汽车的合作内容包括在智能汽车、车联网、L3级智能驾驶、高精度地图及车载地图、联合品牌运营等领域展开合作等。

分类	合作伙伴	当前及潜在合作机会
汽车租赁、打车企业	一嗨租车、首汽租车等	智能驾驶汽车的终端用户
自动驾驶相关企业	AutonomouStuff	利用Apollo开放能力改装自动驾驶车
	地平线机器人	基于车机或自动驾驶系统合作
	路畅科技
	MOMENTA
	VIRES
	智行者科技	合作的无人驾驶扫路机已投放
芯片供应商	英特尔	提供自动驾驶相关芯片
	紫光展锐
	英伟达
软件及解决方案供应商	微软	基于自动驾驶相关系统软件及解决方案合作
	中科创达
	博世
车联网企业	博泰	合作提供更为安全、便捷、经济的智能驾驶方案
	同行者
	远特科技
通讯供应商	中兴通讯	综合通信解决方案提供商
IT学习、社区	极客帮	技术学习、交流服务
	优达学城
	CSDN

Apollo保持着每周数十次频率的代码更新，从2017年7月到9月两个多月时间新增6.5万行代码。同时，Apollo获得全球开发者的积极响应。截止2017年9月20日，共有1300多个合作伙伴下载使用了Apollo开源代码，近百个合作伙伴通过Apollo官网申请开放数据。上线当月，在全球最大的开源社区Github的全球C++类项目中排名第一，6000多个开发者推荐使用Apollo开源软件。

PaddlePaddle：深度学习开放平台

PaddlePaddle前身是百度于2013年自主研发的深度学习平台，一直为百度内部工程师研发使用。2016年9月，百度宣布其深度学习平台PaddlePaddle在开源社区Github及百度大脑平台开放。2017年年初，PaddlePaddle可在Google开源的Docker容器集群管理系统Kubernetes运行，并成为目前唯一官方支持Kubernetes的深度学习框架，两个开源项目的结合意味着深度学习对于广大开发者正变得“触手可及”。

PaddlePaddle具备5大优势：

灵活：PaddlePaddle支持大量的神经网络架构和优化算法，支持任意复杂RNNs结构。
高效：PaddlePaddle会每一级的计算、内存、架构及通信进行优化，以充分利用异构计算资源。
可扩展：PaddlePaddle能通过优化通信，获得高吞吐量和性能。
易用：Paddlepaddle可以使开发者更加专注于模型的高层结构。
可快速部署：由于PaddlePaddle简单、可扩展的特性，因此可被快速部署到各类应用场景中。

百度人工智能详细分析

图表18：几类深度学习平台的比较

TensorFlow：大部分功能可以通过从库里直接调取代码实现，不需要手动编程。内存占用较大，且不支持时间序列的卷积。
Theano：相较于深度学习，其更适合数值计算优化。它允许自动功能梯度计算。但目前不具备多GPU支持和水平功能。
Caffe：注重计算机视觉，灵活性不够，安装过程较繁琐。如果有新的改动，需要使用C++和CUDA进行编程；对于较小的改动，可以使用其Python或Matlab来完成。
Torch：是一个很好的平台，但是开发语言Lua较小众，学习成本大。实现并且优化了基本的计算单元，使用者可以在此基础上编写自己的算法。
MXNet：支持Python、R、C++等多种语言，特别受R语言使用者的欢迎，并且有独特的多GPU扩展功能。
PaddlePaddle：使用界面类似于Caffe，并且较好地支持RNN与NLP以及多CPU/GPU并行计算。相较于较TensorFlow，PaddlePaddle能帮助开发者聚焦于构建深度学习模型；相较Caffe，PaddlePaddle支持更多应用场景。

百度人工智能详细分析

图表19：Paddle与TensorFlow在RNN下的表现

目前，PaddlePaddle已经被应用于百度的30多个主要产品，如外卖菜品识别、预估出餐时间、海量图像识别分类、字符识别（OCR）、机器翻译和自动驾驶等领域。

百度“能听会看”作为触手、带动技术领域的商业化落地

从“能听”走向“能听懂”的学习之路

1、百度以语音识别为切入点，构建人工智能生态圈。

2017年，百度语音开放生态2.0。目前，百度语音开放生态已经构建起包括模型层、功能层、交互层、接入层的四层开放架构，已有近25万开发者纳入生态圈，日调用总数达20亿次。在开放生态2.0中，百度将开放远场识别及唤醒技术、定制化语音合成、语音合成音色等技术：

远场语音识别及唤醒技术：百度通过数据增强技术，复用百度积累的海量搜索语音数据和世界领先的语音模型识别，将近场语音技术完整迁移到远场。此外还适配包括Intel、科大讯飞、科胜讯在内的主流麦克风陈列。同时对家居场景进行定向噪声优化；
定制化语音合成技术：包括定制化文本转语音技术、语音合成标注语言标签语言、基础标签及百度扩展内容；
开放音色合成：包括自然音色和个性化及明星合成音色；

百度人工智能详细分析

图表20：语音技术开放现状

目前，百度已与联想、中兴、长虹、索尼、iReader、携程、特斯拉等品牌合作，构建包含模型层、功能层、交互层、接入层的语音开放架构。

语音识别的目标是以电脑自动将人类的语音内容转换为相应的文字，其应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。

直到第三次人工智能热潮来临，深度学习的崛起、高性能计算和大数据的迅速发展才使语音识别从实验室走出并开始实现商业落地。近年来语音识别准确率得到了极大的提升。2016年11月，搜狗、百度、科大讯飞相继宣布其中文语音识别率达到了97%。

百度人工智能详细分析

图表21：语音识别错误率在近几年得到了极大降低

语音识别作为人工智能核心技术之一，目前各科技巨头都将其作为切入点，积极布局人工智能。在智能语音领域方面的布局，科技巨头和初创公司的打法有所差异，具体表现为：

科技巨头：围绕主业，开放应用平台，同时通过收购、战略合作等手段补齐短板，打造人工智能生态圈；
智能语音成熟公司：基于原有技术优势，从单一技术厂商向人工智能产业生态构建者进军；
其他创业公司：深耕细分领域，重点布局家居、车载、机器人。

2、自然语言处理技术赋予机器认知能力

人类语言与计算机之间相互作用的研究领域称为自然语言处理（简称NLP）。它结合了计算机科学、人工智能和计算语言学。开发人员利用NLP可以组织和构建知识，执行自动总结、翻译、命名实体识别、关系提取、情感分析、语音识别和主题分割等任务。目前，中国在自然语言处理领域的专利数量占比仅次于美国。

自百度诞生之日起，中文分词这种的基础NLP技术便已经应用于搜索引擎。自然语言处理专家王海峰博士加入百度后对百度NLP工作进行了重新梳理。在加强分词、专名识别、query需求分析、query改写等传统方向的同时还拓展了机器翻译、机器学习、语义搜索、语义理解、智能交互、深度问答、篇章理解等新的技术方向。在他的带领下，NLP团队已经包括了算法开发、系统实现、学术研究、语言学、产品设计和架构、前端、客户端工程开发等多领域的人才，全面支持百度各种产品应用。

百度人工智能详细分析

图表22：百度自然语言处理技术概要

历经17年的积累，2013年百度首次开发了NLP Cloud平台，拥有20多种NLP模块，每天的请求数超1000亿次，每日流量达数十亿次，已为超2万个企业和开发者提供百度翻译API，应用于百度搜索、Feed、O2O和广告等业务与产品方向。此外，百度还提供语音翻译及利用字符识别技术进行的图片内容翻译。

在Baidu Create 2017上，百度开放了基于百度自然语言处理技术的理解与交互技术平台UNIT（Understanding and Interaction Technology Platform），包括词法分析、情感分析、机器翻译、语义表示、语言模型、语义相似度等技术，为机器赋予“理解”能力。

百度人工智能详细分析

图表23：UNIT整体框架

UNIT基于百度海量的搜索数据、问答数据、网页数据等为对话系统的开发提供大数据保障，为每个不同的对话任务智能推荐相关数据，以供进一步的训练数据标注。并首次推出理解与交互“对话训练师”模式让普通开发者乃至零编程基础的人都能成为训练师。对话系统通过与训练师对话便可不断完善系统功能、提升对话能力。目前，UNIT已经应用于车载、客服、家居等场景。

百度人工智能详细分析

图表24：训练师模式

全方位视频理解技术使机器不仅“会看”，还会理解

在Baidu Create 2017上，百度发布了全方位视频理解技术，包括视频分割技术、语义理解、人脸识别及机器人视觉等。

视频分割技术是无人驾驶/机器人的核心技术，对数据和精度要求很高，需要像素级别的输出信息和更多的视频训练数据。目前百度具有世界第一个室外语义分割RGBD视频数据集。
语义理解技术包括视频封面选摘技术、视频分类/标签技术、视频智能对比技术、视频审核色情识别技术、视频公众人物识别技术、视频结构化分析技术，并将上线视频细粒度识别技术。
人脸识别：百度已经运用200万人的2亿张照片进行人脸识别基础模型训练，实现人脸检测、人脸对比及人脸查找，并已应用于百度魔图、百度网盘、百度识图等产品中。此外，百度人脸识别还具备活体识别功能。
机器人视觉开放平台由摄像机IMU模组、SLAM、障碍物检测、地图重建、语义识别5大部分构成且已开源。其中，SLAM采用双目视觉惯性算法，定位结果延迟小误差低；云端API提供人脸识别、物体检测和字符识别功能。

计算机视觉是最主要的人工智能基础技术之一，主要包括信息采集、模型训练及识别。目前，计算机视觉在图像识别和人脸识别两大领域的准确率都已经超过人类极限。计算机视觉技术主要包括图像及视频处理、人脸识别、文字识别、智能监控等，其中人脸识别已经广泛应用于安防、公安、金融等行业。在计算机视觉领域，我国与国外的差距较小。2014年3月，香港中文大学汤晓鸥教授团队的GaussianFace算法在人脸识别数据库LFW上准确率达98.52%，在全球首次突破人眼识别能力。目前，中国在计算机视觉方面的专利已跃居世界第一,占当前全球专利公开数量的55%，并且增长势头强劲。

百度人工智能详细分析

图表25：计算机视觉专利数量分布（单位：%）

今年1月，百度研究院成立AR实验室，同时推出AR开放平台DuMix供开发者及内容创作者使用。在Baidu Create 2017上，百度发布全新DuMix AR开放平台，提供基础的AR技术，包括AR SDK、内容制作工具、云端内容平台和内容分发服务4大部分：

Dumix AR SDK：支持本地识别跟踪、语音交互、SLAM等20多项功能，帮助移动APP集成AR。
内容制作工具：开发者可以使用素材模版库和制作工具开发AR内容，也可以使用百度认证的内容供应商体系，快速为开发者提供全面专业的内容制作服务。
云端内容管理平台：通过云平台方式，提供内容管理、更新，渠道管理，数据统计等多种内容管理服务；
内容分发服务：百度还会在手机百度APP、搜索/Feed等百度系入口上提供优质AR体验的分发服务，通过Dumix AR制作和接入的AR，将可以触达百度的亿级用户。

百度人工智能详细分析

图表26：DuMix AR的能力特点和技术优势

未来，DuMix AR开放平台将通过打通手机百度上内容分发渠道,提供更多场景的AR行业解决方案，赋能各行各业，共同探索AR价值。

总结：人工智能仍在探索阶段，各家技术方向并不完全趋同，又涉及整个产业链的融合能力，因此，最终落地形态和成熟的商业场景存在较大的不确定性。