【人工智能系列调研之五】商汤科技调研纪要

静思之 2020-03-03

展开全文

时间：2016年3月29日

出席高管：CEO 徐立

一、介绍环节

公司主要做的是人工智能中的视觉智能领域。目前人工智能在工业级的应用主要在三个方面：第一是语音识别，第二是视觉智能，第三是自然语言处理。相对于60年前达特茅斯会议当时定义的人工智能，我们现在实际上叫机器智能，主要与机器学习相关的工作。在发展过程中一个主要的流派是统计学习推理，主要当数据量比较少的情况下可以做相对比较准的预测，早期我们叫专家系统；另外一个就是深度学习这一流派，鼻祖是加拿大的教授Hinton，这类算法不对现实世界有数学假设，主要是通过神经网络模拟大脑皮层刺激模式来进行机器学习，2006年改名叫深度学习，就是把神经网络的层级变深。但当时还没有找到杀手级的应用，2010年和微软的邓力合作第一次用深度学习将语音识别带入实用，取得了巨大的突破。目前几乎所有的语音识别都是基于深度学习的理论，所以大家立马想到在视觉领域应用，因为互联网上70%以上内容都是图像。从机器视觉角度分为三个层次：第一是延伸人眼能力，看得更清楚，第二层次就是感知层，算出场景深度和运动等，看图片背后的东西；第三就是识别理解，当时深度学习直接奔第三个层次去应用。而目前已经在视觉各个方面展开。

从全球来看，深度学习方面人才争夺很激烈。Google收购了Hinton的研究团队，并在其搜索引擎排序都用了深度学习，其点击转化率据说有很大提升，百度也挖了吴恩达做深度学习。Google后来花4亿英镑收购只有12人的团队Deepmind，在2014到1月份据说当时全球做深度学习的50个人中deepmind就有12个人。另一个专注人工智能公司是Facebook，领军人物Yann LeCun是纽约大学终身教授。在深度学习领域，大公司把学术上最顶尖负责人来做工业和学术结合是个必然的趋势。

从我们自己公司来看，公司创业这批人都是学术圈来，辞掉终身教职，有谷歌、微软、BAT等公司员工一起来创办的。我们主要应用在移动互联网、互联网金融、安防监控、大数据分析四个方向。从看一个人工智能公司来看需要观察他们三大模块：1、深度学习引擎，“大脑”怎么样；2、是否有足够的应用场景和大数据资源；3、超算能力如何。最早深度学习在CPU上运行，改用GPU之后，效率提升很多。我们现在连接200块GPU作为大的超算系统，作为参考，百度MINWA机器人连接144块GPU, alphgo是170块GPU。公司目前三地员工200多人，核心员工来自业界著名高校和企业。公司拥有50名博士，3名高考状元，5名微软的FELLOW。公司研发上面有很大的投入，员工曾在视觉顶级会议上论文超过150篇。2014年ImageNet全球物体检测比赛中亚军，仅次于谷歌，同年我们公司团队人员是全球首次实现LFW上人脸识别率超过人肉眼。2015年我们在视频识别的一项比赛是全球第一。我们认为学术热点和工业热点的结合是未来人工智能的必然趋势。

金融行业应用：人证比对、刷脸登录、刷脸支付、活体检测、身份证扫描识别、银行卡扫描识别，消费小票的文字识别（和京东白条合作），客户包括移动、银联、融360、拉卡拉、借贷宝等。

防攻击：利用平台大量攻击数据，如伪造人脸识别等，用机器学习方式做了防攻击。

移动互联网：1、相机，FACEU、微博相机背后所有的人脸技术都是我们的；2、相册，小米MIUI的人脸识别云相册，华为MATE8,人脸分类，场景分类。

安防监控行业：深度学习驱动智能监控类产品，人脸布控系统、行人搜索平台、车辆搜索平台、人群分析，我们做了远距离识别摄像头，百米以上都可以人脸识别。

深度学习机器：打造sensebox自己深度学习机器，自主研发的深度学习平台操作系统parrots。

二、问答环节

问：互联网公司是否在人工智能领域无论在深度学习算法人才还是计算和数据资源都更有优势？

答：大公司的问题是不聚焦，不能很好统一调配，另外大公司主要2C,企业级服务比较少，而我们是B2B的一个中立平台，更多企业愿意用我们的技术产品，比如我们和东方网力合作视云天下平台，利用行业应用平台大量数据能把我们的产品技术打磨更好。

问：如何看待无监督学习？是否会在大数据分析中有很好应用？

答：无监督学习最早是谷歌在互联网图片中自己学会认识猫，实际上人有时候在学习外界的时候会改变目标，机器不会变目标，而无监督学习机器目标不一定明确，看能否找出大量数据背后的规律。目前大数据行业最关键问题是要有足够的结构化的数据，结构化信息的获取是要解决的问题。在需要经验累积领域的行业人工智能肯定是会有大的突。中国有13亿庞大人口而且大数据资源利用比较灵活，实质上有很大的数据红利，这对中国是有机会弯道超车的机会。

问：是否会有专门针对深度学习应用的新的硬件架构的趋势？

答：非常有可能，比如我们用200块GPU搭建超算系统确实会有一定优势，但可能需要更专门的芯片和硬件。intel去年也收购了全球著名的FPGA公司，也是出于这方面考虑。FPGA可擦写，可以program，可以和芯片做一个辅助，为芯化打基础，硬件是深度学习关键点。

问：如何看待目前各大巨头在人工智能领域的开源趋势？

答：更多出于学术上考虑，促进更多人投身这个领域，但是从谷歌开源来看，其开源的是单机版如果没有足够计算资源很难与其竞争，另外很多巨头开源系统能否商用都是很难说的。

问：我们主要的商业模式？

答：B2B2C的模式，另外和有股权绑定的分成模式。

问：我们和科大讯飞合作情况？

答：科大讯飞图像识别类的应用主要是与我们合作的。

问：我们和FACE++的比较？

答：他们专注于人脸识别垂直领域，我们专注于背后的深度学习引擎，应用更广泛。

问：深度学习引擎是否会走向比较成熟的阶段？

答：目前这么多学术界人在做是因为目前可以看到是处在一个可以不断提升的过程，我们自己判断是在3年左右。