分享

【人工智能系列调研之五】商汤科技调研纪要

 静思之 2020-03-03

时间:2016329

出席高管:CEO 徐立

一、介绍环节

公司主要做的是人工智能中的视觉智能领域。目前人工智能在工业级的应用主要在三个方面:第一是语音识别,第二是视觉智能,第三是自然语言处理。相对于60年前达特茅斯会议当时定义的人工智能,我们现在实际上叫机器智能,主要与机器学习相关的工作。在发展过程中一个主要的流派是统计学习推理,主要当数据量比较少的情况下可以做相对比较准的预测,早期我们叫专家系统;另外一个就是深度学习这一流派,鼻祖是加拿大的教授Hinton,这类算法不对现实世界有数学假设,主要是通过神经网络模拟大脑皮层刺激模式来进行机器学习,2006年改名叫深度学习,就是把神经网络的层级变深。但当时还没有找到杀手级的应用,2010年和微软的邓力合作第一次用深度学习将语音识别带入实用,取得了巨大的突破。目前几乎所有的语音识别都是基于深度学习的理论,所以大家立马想到在视觉领域应用,因为互联网上70%以上内容都是图像。从机器视觉角度分为三个层次:第一是延伸人眼能力,看得更清楚,第二层次就是感知层,算出场景深度和运动等,看图片背后的东西;第三就是识别理解,当时深度学习直接奔第三个层次去应用。而目前已经在视觉各个方面展开。

从全球来看,深度学习方面人才争夺很激烈。Google收购了Hinton的研究团队,并在其搜索引擎排序都用了深度学习,其点击转化率据说有很大提升,百度也挖了吴恩达做深度学习。Google后来花4亿英镑收购只有12人的团队Deepmind,在20141月份据说当时全球做深度学习的50个人中deepmind就有12个人。另一个专注人工智能公司是Facebook,领军人物Yann LeCun是纽约大学终身教授。在深度学习领域,大公司把学术上最顶尖负责人来做工业和学术结合是个必然的趋势。

从我们自己公司来看,公司创业这批人都是学术圈来,辞掉终身教职,有谷歌、微软、BAT等公司员工一起来创办的。我们主要应用在移动互联网、互联网金融、安防监控、大数据分析四个方向。从看一个人工智能公司来看需要观察他们三大模块:1、深度学习引擎,大脑怎么样;2、是否有足够的应用场景和大数据资源;3、超算能力如何。最早深度学习在CPU上运行,改用GPU之后,效率提升很多。我们现在连接200块GPU作为大的超算系统,作为参考,百度MINWA机器人连接144块GPU, alphgo是170块GPU。公司目前三地员工200多人,核心员工来自业界著名高校和企业。公司拥有50名博士,3名高考状元,5名微软的FELLOW。公司研发上面有很大的投入,员工曾在视觉顶级会议上论文超过150篇。2014ImageNet全球物体检测比赛中亚军,仅次于谷歌,同年我们公司团队人员是全球首次实现LFW上人脸识别率超过人肉眼。2015年我们在视频识别的一项比赛是全球第一。我们认为学术热点和工业热点的结合是未来人工智能的必然趋势。

金融行业应用:人证比对、刷脸登录、刷脸支付、活体检测、身份证扫描识别、银行卡扫描识别,消费小票的文字识别(和京东白条合作),客户包括移动、银联、融360、拉卡拉、借贷宝等。

防攻击:利用平台大量攻击数据,如伪造人脸识别等,用机器学习方式做了防攻击。

移动互联网:1、相机,FACEU、微博相机背后所有的人脸技术都是我们的;2、相册,小米MIUI的人脸识别云相册,华为MATE8,人脸分类,场景分类。

安防监控行业:深度学习驱动智能监控类产品,人脸布控系统、行人搜索平台、车辆搜索平台、人群分析,我们做了远距离识别摄像头,百米以上都可以人脸识别。

深度学习机器:打造sensebox自己深度学习机器,自主研发的深度学习平台操作系统parrots

二、问答环节

问:互联网公司是否在人工智能领域无论在深度学习算法人才还是计算和数据资源都更有优势?

答:大公司的问题是不聚焦,不能很好统一调配,另外大公司主要2C,企业级服务比较少,而我们是B2B的一个中立平台,更多企业愿意用我们的技术产品,比如我们和东方网力合作视云天下平台,利用行业应用平台大量数据能把我们的产品技术打磨更好。

问:如何看待无监督学习?是否会在大数据分析中有很好应用?

答:无监督学习最早是谷歌在互联网图片中自己学会认识猫,实际上人有时候在学习外界的时候会改变目标,机器不会变目标,而无监督学习机器目标不一定明确,看能否找出大量数据背后的规律。目前大数据行业最关键问题是要有足够的结构化的数据,结构化信息的获取是要解决的问题。在需要经验累积领域的行业人工智能肯定是会有大的突。中国有13亿庞大人口而且大数据资源利用比较灵活,实质上有很大的数据红利,这对中国是有机会弯道超车的机会。

问:是否会有专门针对深度学习应用的新的硬件架构的趋势?

答:非常有可能,比如我们用200GPU搭建超算系统确实会有一定优势,但可能需要更专门的芯片和硬件。intel去年也收购了全球著名的FPGA公司,也是出于这方面考虑。FPGA可擦写,可以program,可以和芯片做一个辅助,为芯化打基础,硬件是深度学习关键点。

问:如何看待目前各大巨头在人工智能领域的开源趋势?

答:更多出于学术上考虑,促进更多人投身这个领域,但是从谷歌开源来看,其开源的是单机版如果没有足够计算资源很难与其竞争,另外很多巨头开源系统能否商用都是很难说的。

问:我们主要的商业模式?

答:B2B2C的模式,另外和有股权绑定的分成模式。

问:我们和科大讯飞合作情况?

答:科大讯飞图像识别类的应用主要是与我们合作的。

问:我们和FACE++的比较?

答:他们专注于人脸识别垂直领域,我们专注于背后的深度学习引擎,应用更广泛。

问:深度学习引擎是否会走向比较成熟的阶段?

答:目前这么多学术界人在做是因为目前可以看到是处在一个可以不断提升的过程,我们自己判断是在3年左右。

问:人工智能对于金融投资应用如何看?

答:量化分析运用深度学习是可以的,但在长线做准确预测一个问题是收集结构化信息需要考虑哪些因素是不确定的,比如不只是市场数据,其他天气、宏观等各方因素是否会对投资有影响,是否需要都收集结构化数据来训练,这个很难确定。

问:和东方网力合资公司情况?

答:和东方网力合作公司会发展100人,我们在人群分析和person reID两类技术放在合资公司,其他技术东方网力都可以作为我们技术的代理商。

问:我们无人驾驶领域布局?

答:我们和nividia有合作,因为算法发展很快,NVIDIA ptx1车上装了GPU卡,可以用空闲空间自带ADAS,通过可擦写进入,实现快速迭代。深度学习应用终端化、云化是两大趋势。

最大的区别是2011年是深度学习出现,AI技术走向成熟。深度学习简单来说就是用数学model人脑。应用包括图像、语音、游戏博弈、自动驾驶、生命科学等。基因序列其实类似于人脸识别。中国人脸识别准确率首次超过人眼是我们做的,今年我们获得5项比赛中3项公司。

技术实力:创始团队是亚洲第一个大规模从事深度学习的团队,现在是全亚洲最大的深度学习研究团队。计算能力是亚洲唯一能够批量用HPC的公司,最大能够用400块GPU,拥有世界上最深的神经网络1207层。

商业化:200+国内外战略合作伙伴和大客户建立合作。

判断深度学习三个核心指标:大数据、高性能计算、深度学习,

1、深度学习:关键在于算法能力,底层设计能力

人工智能开源平台:类似于操作系统,但真正核心平台都是在内部的。

caffe:最早的开源平台,不支持分布式。

torch:分布式训练,灵活但以写底层代码为代价,生产力低。

tensorflow:支持分布式,显存使用过高,性能欠佳。

依赖开源平台:效能不理想、技术发展受制、知识产权问题

商汤科技自主平台Parrots:超深网络(1207层网络)、超大数据学习能力(6000万)、复杂关联应用(多模态数据学习能力)

2、超算能力

目前建成4个超算,2015年11月第一个HPC连接200块GPU超过百度的144块GPU、国内唯一购买迈络思1台100万,连接20-40台机器。

平安城市:视频结构化平台(本质上将大量视频监控数据提取有效数据),海康在推,我们识别率比他领先20%。据海康估算一年有400亿采购额

金融:人脸身份认证,借贷宝(超过1亿人)、中国移动三年独家、超过3亿手机实名化、乐视刷脸。

智慧商业:商业地产视频实时监测人脸属性

移动智能:增强现实特效(faceu)每年收年费、智能相册(小米、华为)

无人驾驶:某世界前五大车厂已经选择商汤为

芯片ip:压缩神经网络、一般训练好几百兆几G

人机交互:AR/VR

问:子公司行业?

答:四个子公司,第一个安防领域主要是东方网力,另外一个金融领域有一个子公司做征信。

问:深度学习黑箱、不可解释性限制其应用?

答:并不是黑盒子,可以重新设计、对应网络结构都是不一样的。

问:开源人工智能平台?

答:建立学术界、工业界名望,来建立自己的生态。

标注成本:1、生成数据,对我们是真实场景的补充,自带某些信息,视觉领域没有真正大的C的空间,还是会做在线服务,有数据闭环,一定程度上

标注1一个小时50元,需要人的照片和五官轮廓点延,标注一张图500个点,半自动,1分钟一张两张。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多