本文源自 太平洋证券 人工智能专题研究之一 证券分析师 王文龙、徐中华 信息化顾问团 杨凯 整理 百度AI平台将逐步开放,助力构建百度AI生态圈 “云+大脑”打磨升级构成百度AI平台 百度AI开发者大会(Baidu Create 2017)上,百度AI平台架构图首次完整亮相,全新开放了视频、语音、AR/VR、机器人视觉、自然语音处理等五大类目共14项全新能力,此次开放的技术能力总共有60个,是目前最全面的AI技术开放平台。百度AI平台由百度大脑及百度云组成,分为云、大数据、算法层、感知层、认知层、平台层五大层次,核心能力的开放已达60余项。 图表1:百度AI平台的架构 作为百度AI平台的核心,百度大脑由算法层、感知层、认知层、平台层共同组成,是业界第一个完整清晰地把认知层和感知层放在一起的人工智能平台。
图表2:百度大脑各层次能力 多领域在人工智能方向进行战略构建 百度自2013年1月组建专注于Deep Learning(深度学习)的研究院—Institute of Deep Learning(简称IDL)开始,百度便已经积极布局人工智能:
2017年1月,陆奇先生加入百度担任集团总裁兼CEO,围绕人工智能在集团架构、业务以及人事方面大刀阔斧进行改革,包括将自动驾驶事业部(L4)、智能汽车事业部(L3)、车联网业务(Car Life etc)合并组建新的智能驾驶事业群组(IDG),并向汽车行业及自动驾驶领域的合作伙伴提供一款名叫Apollo的开放软件平台。 国外方面,Amazon、Facebook布局人工智能主要是为了智能其各自的传统主业以使自身在各自领域保持竞争力,而Google及IBM则是从集团层面对其人工智能生态建设进行了整体规划。国内方面,阿里巴巴在人工智能方面的行动主要是针对具体的应用场景进行智能化,而腾讯则主要是通过在各事业部组建AI团队来推进集团人工智能的发展。 图表3:其他科技巨头在AI的布局概况
可以看到,百度在AI方面的布局已经相对完善,无论是从AI部门的设置、集团战略定位,还是从开放的各类技术平台,均能够帮助百度更快地构建生态圈,以此带来更多场景应用的落地。 AI平台开放、百度生态建设延伸至端 百度AI平台以百度智能云为基础、百度大脑为核心,目前开放DuerOS和Apollo两大平台向终端下沉,与云端一起初步构建起AI生态圈。同时,深度学习开放平台PaddlePaddle具备易用、高效、灵活和可伸缩等特点,使程序员可以快速应用深度学习模型来解决各种实际问题,加快实验室技术在各类场景的应用落地,促进百度AI生态的扩散。 图表4:百度AI平台与生态构建 百度AI平台的开源有助于百度吸引更多优秀的开发者参与进来,在帮助完善AI平台功能的同时,培养用户的使用习惯,构建起开发者生态。此外,还可以通过开发者使实验室技术更快地在具体场景落地。百度可凭借开放的平台寻找到更多的合作者,构建起合作伙伴生态,共同推出行业解决方案和生态合作方案。 DuerOS:开放的对话式人工智能系统 百度在2017CES上推出了DuerOS。此外,百度还发布了DuerOS智慧芯片,具有:“三低、三高”的特点—低成本、低门槛、低消耗、高安全、高集成、高附加。这款DuerOS智慧芯片已将DuerOS与紫光展锐RDA5981完美集成;还采用了ARM公司mbed OS内核及其安全网络协议栈,实现了与云端的安全连接,降低了设备商应用开发门槛。 7月15日,在Baidu Create 2017上,度秘事业部总经理景鲲发布了DuerOS开放平台。该平台以DuerOS对话系统为核心层,应用层为智能设备开放平台,能力层为技能开放平台。其中技能开放平台目前已经拥有10大品类、100多项原生技能且支持第三方资源和内容接入。作为中国版Alexa,未来百度将以DuerOS为切入点,进一步推动集团人工智能生态的构建。 图表5:DuerOS开放平台整体架构 【参考资料:Alexa】 Alexa是Amazon推出的一款语音助手,可以对语音指令进行处理并做出语音回复或执行相应操作,截止2017年6月底,Alexa语音助手已拥有超过1.5万项技能,比官方2月份公布的1万多项增长了一半多。 图表6:语音助手技能数量(单位:项) 目前Alexa主要应用于智能音箱、智能家居、可穿戴设备、购物助手等。亚马逊允许设备制造商通过使用Alexa语音服务(AVS)将Alexa不断增长的语音功能集成到自己的连接产品中。该语音服务(AVS)是一种云服务,提供基于云的自动语音识别(ASR)和自然语言理解(NLP)。 Alexa的语音识别系统框架主要包括四大块:信号处理(Signal processing)、声学模型(Acoustic model)、解码器(Decoder)和后处理(Post processing)。 首先将收集来的声音进行一些信号处理,将语音信号转化到频域,每10毫秒的语音生成一个特征向量,发送到后面的声学模型。声学模型把音频分成不同的音素。接下来解码器可以解出概率最高的词串。最后一步是后处理,把单词组合成易读取的文本。 图表7:Alexa语音识别步骤 其中,声学模型就是一个分类器,输入的是向量,输出的是音频类别对应的概率。该模型是一个典型的神经网络,底部是输入的信息,隐藏层将向量转化到最后一层里的音素概率。 一个美式英语的Alexa语音识别系统,会输出美式英语的音素。以美式英语为基础的Echo,录了几千小时的美式英语语音来训练神经网络模型,这个成本非常高。但是,世界上还有很多其它的语言,比如德语,如果再从头用几千小时的德语语音训练,成本太高。所以,这个神经网络模型有趣的地方就是可以“迁移学习”,它可以保持原有模型中其它层不变,只把最后一层换成德语。两种不同的语言,音素大部分是不一样的,但是仍然有不少相同的部分。因此,仅使用少量的德语语音数据,就可以在稍作改变的模型上得到较准确的德语结果。 现在,DuerOS可以将搭载Alexa的智能音箱变成能听懂中文。未来,百度将把DuerOS打造成AI时代的“安卓”,为AI开发者铺垫好技术基础,帮助其更方便快捷地开发智能语音交互设备,从而打造以DuerOS为入口的智能语音生态链。 Apollo:自动驾驶开放平台 百度AI的核心突破口当属自动驾驶,首先是成立智能驾驶事业群组(IDG)。紧接着于今年4月在上海车展上发布了“Apollo”计划,向汽车行业及自动驾驶领域的合作伙伴提供开放的、完整的、安全的软件平台,帮助他们快速搭建一套属于自己的自动驾驶系统。Apollo开放平台的发布标志着百度在人工智能的系统级开放进程更进一步,这也是全球范围内自动驾驶技术的第一次系统级开放。百度将致力于将Apollo打造成汽车工业时代的安卓,但是比安卓更开放、能量更大。 7月5日百度AI开发者大会上,百度首次对外公布Apollo详细的路线图、技术框架以及首期开放Apollo 1.0的能力。会上,百度宣布Apollo生态合作伙伴联盟规模超50家,目前Apollo生态合作伙伴联盟已辐射OEM、Tier1、地图公司、芯片公司、基金投资、个人开发者、创业公司、研究机构及政府机构等,成为全球最强大的自动驾驶生态。 Apollo将提供一套完整的软硬件和服务系统,包括车辆平台、硬件平台、软件平台、云端数据服务等四大部分。此外,百度还将开放环境感知、路径规划、车辆控制、车载操作系统等功能的代码或能力,并且提供完整的开发测试工具。并且,百度还会在车辆和传感器等领域选择协同度和兼容性最好的合作伙伴,推荐给接入Apollo开放平台的第三方合作伙伴使用,进一步降低自动驾驶的研发门槛。 Apollo核心技术的总体技术框架由4个部分组成:
图表8:2017年7月发布的Apollo路线图 图表9:Apollo平台开放情况(紫色为Apollo1.0开放部分,红色部分为Apollo1.5开放部分) 2017年9月20日,百度宣布Apollo1.5正式开放,包含障碍物感知、决策规划、云端仿真、高精地图服务、端到端的深度学习(End-to-End)等五大核心开放能力,并支持昼夜定车道自动驾驶。其中,原本计划于年底开放的端到端的深度学习(End-to-End)在9月20日宣布提前开放。 能力一:障碍物感知 感知模块的目标是在给定从激光雷达传感器获得的三维点云数据后提供感知障碍的能力。它能检测、分段和跟踪以高精度地图ROI方式定义的障碍。此外,它预测障碍物的运动和姿态信息(如航向、速度等)。核心的3D感知模块是基于大规模点云数据训练的深度卷积神经网络(CNN)的障碍物检测和分割算法,包括高精地图ROI过滤、基于CNN的障碍物检测与分割、MinBox障碍物框构建和HM物体跟踪。 图表10:3D感知模块的组成部分
止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主机厂、Tier1供应商、开发者生态公司。同时百度宣布Apollo基金“双百计划”,将在三年内投入100亿资金,完成超过100家项目的投资,未来将进一步壮大Apollo平台的生态联盟。 能力二:决策规划 决策规划模块根据实时路况、感知模块输出的信息、道路限速等信息做出相应的轨迹预测和智能规划,同时兼顾安全性和舒适性,提高行驶效率。决策规划模块主要由障碍物检测、路径规划、选择与控制三部分组成。 图表11:决策规划模块的组成部分
能力三:高精度地图 高精度地图与普通电子地图的主要区别是高精度地图拥有更精确的车辆位置信息和更丰富的道路元素数据信息,起到构建类似于人脑对于空间的整体记忆与认知的功能,可以帮助汽车预知路面复杂信息,如坡度、曲率、航向等,更好地规避潜在的风险。是实现自动驾驶的关键所在。此外,高精度地图还起到了车辆间共享路况信息、识别交通标志的作用。 能力四:云端仿真 其中开放云端仿真功能作用极为重要,在正常的产品开发过程中,良好的仿真测试环境将方便产品开发者在模拟环境中快速测试产品的性能、可靠性等,加快产品的迭代测试周期从而提高产品测试效率: 图表12:云端仿真功能的作用
能力五:端到端 按照2017年7月百度发布的规划,端到端深度学习能力比原定的2017年12月提前了3个月,开放速度有所加快。本次开放的障碍物感知和决策规划能力使车辆能够实现不分昼夜的精准障碍物识别,并能通过深度神经网络精准预测行驶路径,从而做出最终的驾驶决策。 百度IDG部门的郁浩在百度技术沙龙上的演讲中提到,和Apollo中端到端学习相对的是传统无人驾驶项目中主要使用的规则式系统,这是过去二十多年无人驾驶研究的主流方向。规则式系统从车辆开始是一个闭环:从车辆到车上的传感器,获取输入信息,这些信息经过感知层处理,提取出道路、行人和车辆等各种信息。在感知到的信息的基础之上,再加入高精地图等一些静态信息,把动态信息和静态信息结合到一起形成较完备的世界模型(World Model)——对外部环境的完备描述。在此基础之上就可以进入到决策模块产生决策,然后控制模块把决策信号传递给车辆。 图表13:规则式系统 上图是一个很简单的闭环模式,也有很多人提出了相关的或类似的架构,比如国际汽车工程师学会(SAE)在上边闭环的基础上,更细化分成大环、小环和各个模块之间的关系。 图表14:国际汽车工程师学会(SAE)推荐的系统架构图 为了使规则式系统能够满足自动驾驶的需要,需要不断细化、得到更复杂的功能模块图,真正系统落地时往往有上千个模块。因此规则式系统有3个特点:
简单地归纳一下,与规则式系统相比,端到端学习更像是在模拟、贴合人的思考过程,包括人的下意识思考。相对规则式系统而言,端到端学习成本更低,但需要大量优质数据来让机器进行学习、筛选各种情况下有效的路径。 图表15:Rule based与End-to-End比较 端到端的已有案例 Apollo1.5的合作者Momenta基于定车道昼夜自动驾驶能力,很快完成了实车验证。实际道路测试表明,搭载了Apollo1.5的平台即使在夜间可视度不佳的情形下,依旧能完成各种复杂的交通场景识别。 另一个合作伙伴智行者科技在Apollo平台上打造的无人驾驶扫路车,目前已经在北京一家园区正式落地,开创了Apollo自动驾驶作业车的先例。2017 CES Asia展会上,百度联合长城汽车、NVIDIA,在哈弗H7展示了基于单目摄像头+百度深度学习技术的端到端自动驾驶解决方案,进行了公开试乘。 图表16:封闭园区的固定路线的接驳 Apollo平台目标实现生态,开源广纳合作者参与 自Apollo1.0发布2个多月后,其在知名开源平台Github上已经聚集了6000多的开发者,位居开源平台前列。Apollo GitHub将自己定义为一个开放的、完整的、安全的自动驾驶平台,以灵活和高性能的技术架构,为全自动驾驶提供支持。 Apollo开源代码资源可以分为三部分,分别是apollo、apollo-platform、apollo-kernel。 第一部分,apollo该部分有入门文档,介绍了Apollo的基本信息。modules文件夹中是各个模块(如感知模块perception,预测模块prediction,端到端e2e)的开源内容。还有一些其他文件夹:docker沙箱,scripts脚本,third_party第三方开源代码,tools工具。说明文档推荐使用已经设置好的沙箱模式。 第二部分,apollo-platform该部分内容用来提供平台支持,目前主要是一套经过修改的ROS(机器人操作系统)。 第三部分apollo-kernel,该部分内容用来提供核心支持,目前Apollo核心使用的是修改过的Linux Kernel 4.4.32。 Apollo生态链及标的公司 无人驾驶快速落地,行业生态起到了关键性作用,对比手机的Android系统来看,在Android系统2009年面世之前,各个手机厂家都有自己的操作系统,而在Android系统出来后,短短几年内,各大手机厂商操作系统都统一在开源的Android系统之下(苹果公司的IOS除外),而没有跟上这个趋势的厂商(如诺基亚、摩托罗拉等)很快就销声匿迹了。现在Apollo平台,正如Android系统初生之时,在国内有一统平台的潜质,Apollo目前已经拥有70多家合作伙伴,已有多家合作伙伴采用公司的平台进行产品研发,未来前景良好。因此,如果关注A股上市公司,建议投资者重点关注参与到Apollo产业链的公司,尤其是那些细分行业的龙头,具有良好的爆发性机会。 图表17:Apollo合作伙伴分类
Apollo保持着每周数十次频率的代码更新,从2017年7月到9月两个多月时间新增6.5万行代码。同时,Apollo获得全球开发者的积极响应。截止2017年9月20日,共有1300多个合作伙伴下载使用了Apollo开源代码,近百个合作伙伴通过Apollo官网申请开放数据。上线当月,在全球最大的开源社区Github的全球C++类项目中排名第一,6000多个开发者推荐使用Apollo开源软件。 PaddlePaddle:深度学习开放平台 PaddlePaddle前身是百度于2013年自主研发的深度学习平台,一直为百度内部工程师研发使用。2016年9月,百度宣布其深度学习平台PaddlePaddle在开源社区Github及百度大脑平台开放。2017年年初,PaddlePaddle可在Google开源的Docker容器集群管理系统Kubernetes运行,并成为目前唯一官方支持Kubernetes的深度学习框架,两个开源项目的结合意味着深度学习对于广大开发者正变得“触手可及”。 PaddlePaddle具备5大优势:
图表18:几类深度学习平台的比较
图表19:Paddle与TensorFlow在RNN下的表现 目前,PaddlePaddle已经被应用于百度的30多个主要产品,如外卖菜品识别、预估出餐时间、海量图像识别分类、字符识别(OCR)、机器翻译和自动驾驶等领域。 百度“能听会看”作为触手、带动技术领域的商业化落地 从“能听”走向“能听懂”的学习之路 1、百度以语音识别为切入点,构建人工智能生态圈。 2017年,百度语音开放生态2.0。目前,百度语音开放生态已经构建起包括模型层、功能层、交互层、接入层的四层开放架构,已有近25万开发者纳入生态圈,日调用总数达20亿次。在开放生态2.0中,百度将开放远场识别及唤醒技术、定制化语音合成、语音合成音色等技术:
图表20:语音技术开放现状 目前,百度已与联想、中兴、长虹、索尼、iReader、携程、特斯拉等品牌合作,构建包含模型层、功能层、交互层、接入层的语音开放架构。 语音识别的目标是以电脑自动将人类的语音内容转换为相应的文字,其应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。 直到第三次人工智能热潮来临,深度学习的崛起、高性能计算和大数据的迅速发展才使语音识别从实验室走出并开始实现商业落地。近年来语音识别准确率得到了极大的提升。2016年11月,搜狗、百度、科大讯飞相继宣布其中文语音识别率达到了97%。 图表21:语音识别错误率在近几年得到了极大降低 语音识别作为人工智能核心技术之一,目前各科技巨头都将其作为切入点,积极布局人工智能。在智能语音领域方面的布局,科技巨头和初创公司的打法有所差异,具体表现为:
2、自然语言处理技术赋予机器认知能力 人类语言与计算机之间相互作用的研究领域称为自然语言处理(简称NLP)。它结合了计算机科学、人工智能和计算语言学。开发人员利用NLP可以组织和构建知识,执行自动总结、翻译、命名实体识别、关系提取、情感分析、语音识别和主题分割等任务。目前,中国在自然语言处理领域的专利数量占比仅次于美国。 自百度诞生之日起,中文分词这种的基础NLP技术便已经应用于搜索引擎。自然语言处理专家王海峰博士加入百度后对百度NLP工作进行了重新梳理。在加强分词、专名识别、query需求分析、query改写等传统方向的同时还拓展了机器翻译、机器学习、语义搜索、语义理解、智能交互、深度问答、篇章理解等新的技术方向。在他的带领下,NLP团队已经包括了算法开发、系统实现、学术研究、语言学、产品设计和架构、前端、客户端工程开发等多领域的人才,全面支持百度各种产品应用。 图表22:百度自然语言处理技术概要 历经17年的积累,2013年百度首次开发了NLP Cloud平台,拥有20多种NLP模块,每天的请求数超1000亿次,每日流量达数十亿次,已为超2万个企业和开发者提供百度翻译API,应用于百度搜索、Feed、O2O和广告等业务与产品方向。此外,百度还提供语音翻译及利用字符识别技术进行的图片内容翻译。 在Baidu Create 2017上,百度开放了基于百度自然语言处理技术的理解与交互技术平台UNIT(Understanding and Interaction Technology Platform),包括词法分析、情感分析、机器翻译、语义表示、语言模型、语义相似度等技术,为机器赋予“理解”能力。 图表23:UNIT整体框架 UNIT基于百度海量的搜索数据、问答数据、网页数据等为对话系统的开发提供大数据保障,为每个不同的对话任务智能推荐相关数据,以供进一步的训练数据标注。并首次推出理解与交互“对话训练师”模式让普通开发者乃至零编程基础的人都能成为训练师。对话系统通过与训练师对话便可不断完善系统功能、提升对话能力。目前,UNIT已经应用于车载、客服、家居等场景。 图表24:训练师模式 全方位视频理解技术使机器不仅“会看”,还会理解 在Baidu Create 2017上,百度发布了全方位视频理解技术,包括视频分割技术、语义理解、人脸识别及机器人视觉等。
计算机视觉是最主要的人工智能基础技术之一,主要包括信息采集、模型训练及识别。目前,计算机视觉在图像识别和人脸识别两大领域的准确率都已经超过人类极限。计算机视觉技术主要包括图像及视频处理、人脸识别、文字识别、智能监控等,其中人脸识别已经广泛应用于安防、公安、金融等行业。在计算机视觉领域,我国与国外的差距较小。2014年3月,香港中文大学汤晓鸥教授团队的GaussianFace算法在人脸识别数据库LFW上准确率达98.52%,在全球首次突破人眼识别能力。目前,中国在计算机视觉方面的专利已跃居世界第一,占当前全球专利公开数量的55%,并且增长势头强劲。 图表25:计算机视觉专利数量分布(单位:%) 今年1月,百度研究院成立AR实验室,同时推出AR开放平台DuMix供开发者及内容创作者使用。在Baidu Create 2017上,百度发布全新DuMix AR开放平台,提供基础的AR技术,包括AR SDK、内容制作工具、云端内容平台和内容分发服务4大部分:
图表26:DuMix AR的能力特点和技术优势 未来,DuMix AR开放平台将通过打通手机百度上内容分发渠道,提供更多场景的AR行业解决方案,赋能各行各业,共同探索AR价值。 总结:人工智能仍在探索阶段,各家技术方向并不完全趋同,又涉及整个产业链的融合能力,因此,最终落地形态和成熟的商业场景存在较大的不确定性。 |
|
来自: mrjiangkai > 《我的图书馆》