微软研究院芮勇谈计算视觉：从感知到认知的长征

dllist 2016-10-01

展开全文

大数据文摘作品，转载具体要求见文末

2016 CCF大数据与计算智能大赛于2016年9月24日在中国·北京梅地亚中心酒店开幕。

微软亚洲研究院常务副院长，著名人工智能专家芮勇在大会上带来了《计算视觉：从感知到认知的长征》的主题报告。芮勇理性分析了最近大热的人工智能和计算机视觉，并提出了计算机视觉发展的三大基石和未来可能的四大发展方向。

他认为，计算机视觉在从感知到认知的过程当中，想要做的更好需要靠三方面：一是机器学习算法的本身，第二个和具体应用相结合，三是获取更有意义的数据。

大数据文摘为您带来一手演讲实录，以下为芮勇演讲全文：

*根据主办方提供的速记整理，在不改变原意的情况下，部分有删改。

◆ ◆ ◆

导语

我今天想聊的一个题目是，计算机视觉从感知到认知的长征。同时再谢谢梅院士前面的演讲（点击超链接查看梅宏院士演讲全文《院士梅宏：真正的大数据应用体现在数据挖掘的深度》）。

最近人工智能也很火，很多看似似是而非，有的时候都已经有点泡沫的感觉，如果一件事情你随便到街上聊聊，连买菜大妈都跟你聊的时候是不是有点过了，人工智能跟那个也有点关系。今天我们要以一种很理性的态度看待人工智能，计算机视觉当然是人工智能的一部分。

◆ ◆ ◆

计算机视觉发展—神奇的2016

下面跟大家分享一下，我对这个计算机视觉过去这4、50年发展的认识。今年2016年也是很特殊的一年，我不知道在座的同仁和媒体的朋友们有没有注意到，80年前图灵提出图灵测试。图灵测试刚才梅院士也提到了，您拿一个帘子后面你也不知道是一个人还是机器，你问他各种问题能够回答，如果分不出是人还是机器的时候，这个机器就已经通过了图灵测试。在1936年的时候，图灵测试被提出来。那70年以前，在1946年的时候，其实是第一台电子计算机在宾州大学被造出来。在60年以前有一个词叫做（英），其实61年之前都没有这个词，这是60年以前被造出来的，所以2016年是很有意义的一年，很多大的事情都发生在80年，70年，60年之前。

那计算机跟人工智能的关系，在人工智能很早期的时候，有人提到我们如果能够把视频摄象头接到一台机器上，让机器能够看见外面的世界知道怎么回事，这就是人工智能其中一个愿景。

所以从最早开始计算机视觉就是人工智能的一部分。经过了过去50年的发展，计算机视觉也是一步步往前走，可以看成最早画草图一样，然后呢，再发展成有一些看上去真的是像回事，到最后今天我们是看到的是一个比较美丽的图画。那么计算机视觉它本身也经过了从草图，到图片，到图画这个过程。从最早图象的摄取到图象的处理，到图象的识别到图象的理解，从感知到认知的这么一个过程。

◆ ◆ ◆

从感知到认知

下面想给大家看一幅图片，什么叫做从感知到认知，哪些东西是感知，哪些东西是认知。

大家看这么一幅画，很久以前的时候，这个计算机视觉的专家只能做出上面第一个部分，把它的特征提取出来，一些线条，块，这是大概4、50年前做的事情。

再之后大家不满足与只做这个了，说我能不能知道这幅图片是室内的还是室外的，这里面是不是有人，还是没有人，所以第二步是给这个图片打上几个图标，这幅图就是室外，里面有人。大家还不满足，光这个还不够，我们能不能再往上提升一步。

再往下的话，我能不能说给计算机看一幅图片，他不仅仅像我刚才提到的第三步，像第四步做出来的，让计算机看成图片之后自动生成人类可以理解的自然语言，就是生成这么一句话，这就是把自然语言和计算机视觉相结合。

再往下走，有这么一幅图片，我们小时候做过看图写作文，说一定能够写出一篇有意义的作文，这就是一步一步从感知到认知的几个过程。

最早做感知是你的纹理，色彩，形状，这个做计算机视觉的人也是干了一辈子，干了4、50年还出了一些比较好的结果，比如说这么一副图片给计算机去看，大家就知道哪几个点应该提取，哪个是不应该提取，等等这是一件事情。再往下，我们想知道这个图片它到底里面包含什么物体，我们叫做图片的分类。

这个又包括三个小问题：

第一个给计算机一幅图，他能够告诉我这幅图里面有一个小朋友有一只狗；

第二个问题不仅仅能够告诉有一个小朋友，有一只狗，还能够告诉我他们坐在哪里；

最后还能够告诉我这个象素在小朋友身上，还是在哪，一步比一步难。最后看图象的分类做计算机的人知道有一个比赛全球几乎所有的一流大学和大企业的研究院都参加这个，它是1000个类别，1000个类别你让计算机先学，都训练好，然后再测试的时候，给计算机看一个从来没有看过的图片，你告诉我这张图片是这1000个类别里面的哪一个，看似简单，实际上很难。我如果告诉你这1000个类别里面有120种狗，我都分不清楚，太厉害了。

◆ ◆ ◆

深度学习降低错误率

那在2010年的时候，这个错误率就是全球排第一的冠军的错误率是28%，这是2010年。之后2010年也是20%几，直到2012年的时候，这个深度学习出来了，深度学习最早出来的是在08，07年的时候，微软研究院几个同事，一下子把错误率降到30%。从来没有降这么快，就是因为他用了深度学习，那是在09年。

2012年的时候深度学习进入了计算机视觉，进入之后一下子把错误率从25%，降到16%。之后每一年的冠军，都是他们做的。直到2014年的时候，这个斯坦福的博士就说，这个计算机似乎能力越来越大，错误率越来越低，我们人到底是什么样的错误率。他把自己关在屋子里面学习样本，之后他去做测试，错误率5.1%，这是非常高了，我们在座的都没有这个水平。去年年底我们微软研究院的同事做了一个很深的深度学习把错误率降到3.6%，这个超越了人类对图象分类的水平。

为什么可以做这么好？在2012年的时候深度学习做到八层，我相信像梅院士还有别的诸位在8、90年代的时候都写过神经视觉网络，我当时也写过，当时隐含层只有一层，每层下来要求片导的，这是在算法上有问题。

第二个是数据量太小，第三这个计算能力太低，当时在一台486上跑，今天都不可想象。今天这么大东西在486上跑几年都跑不完。2012年新的数据出来了，八层的隐含层的DAN也出来了，所以错误率在下降，到2015年我们做了152层的，人类历史上从来没有达到这么深，把错误率降到了3.5%，这个不是说你很容易就能够加一层的，在我们做到152层之前，全球所有的研究机构和大学做的最深的就是122层，这个要从算法上进行一些突破性的科研，比如说用这个去抓。因为这件事情，在2015年底的时候，参加三个分类项目都拿了第一名，并且比第二名高出很多。比这个更难的是我不仅仅知道这个小朋友，这个狗，我不仅仅知道他们在里面，我还知道他们在什么位置，这个基本上可以做到这样的程度。

◆ ◆ ◆

物体检测

那么我们去年开始做这个物体检测的时候可以做到这个程度，这个图片已经是很复杂了，一把餐刀这么小的东西都可以被检测出来。

这就是用深度学习做的非常好的结果。那比物体检测更难的一件事情是我希望他在每一个象素上都能够知道这个象素是属于哪一个物体的，这个东西我们如果真的能够做到它有什么用，今天无论是无人机也好，还是无人车也好，如果上面有摄象头都知道周围的环境是什么就可以做非常多的事情。给大家看一段视频，叫做象素级的精准识别。左边是输入的视频，右边是我们做物体检测的结果。天空，树，车，道路，小朋友，都可以分辨出来，这是在进入了从感知到认知的第二个阶段，第一个阶段是特殊提取，第二个阶段是物体的识别和象素级的分类。第三类要再进一步理解，什么是一个图片，什么叫做（英），其实是有什么物体，你对图片和内容要有更深的理解。

举一个例子我们今天有很多搜索引擎，我们想做什么呢，我们想有没有办法让计算机真正去理解这幅图片到底里面的内容是什么，如果能够做到这个，那这就是进一步对图象的理解。

我给大家举一个例子，比如说现在有一个图片，我要想测试一下，图灵测试，我待会会给大家看两段文字，上面这段文字显示的是说“一个人在网球场上拿着一只网球拍”，下面是说“这个人在网球场地上打一场比赛”，这两句话一个是让人看见这幅图片以后写的，另外一句话是让计算机看见这个图片写的，我们看看到底是上面这句话还是下面这句话？上面这句话是机器写的，基本上有一半人都猜错了，这个技术已经可以通过图灵测试。我们在做一个测试，上面这句话写的是“小河边停了一辆自行车”，下句话也是写的稍微文言了一点，大家觉得上面那句话是机器写的请举手，下面这句话是机器写的请举手？稍微多一点，我们看看上面这句话是机器写的，这个具体的问题已经可以通过图灵测试。

还有这幅图的例子，这里面有很多的工作要做，比如说故宫，长城，景山公园，白宫等等，这些很著名的景点你都要知道，还有名人你要知道，我们把全球100位最著名的人物都能够识别出来了，之后还有用深度学习的办法生成这句话。

◆ ◆ ◆

四大方向

今天已经从感知到认知的过程中已经走了这么一步，我觉得是挺大的一个里程碑，但是其实还可以有很多方向，今后我们再接着做，有很多方向都挺有意义的。

我这写了四个：

一个是在语义层次上他引申的一些语义计算机有没有办法知道；

第二给他看一段视频他是不是也能够看懂视频是什么意思；

第三让它更加有交互性，你跟聊天机器人聊天的时候，你给他上传一幅图片他会给你说什么；

第四挺学术的，也是最近一个很重要的计算机视觉方向大的研究方向，不让计算机看一幅图片，我问他一个具体的问题他能够回答出来。

1、Go Higher 语义层次上的引申

我们先看第一个，go higher。

在语义层面上让计算机理解之外的话，我们看计算机看了这幅画，这是奥巴马，后面是一群象，去年我们的计算机只能输出这么一句话，叫做一群象边上有一个人，因为去年还没有做全球100个名人的识别，去年只能做到一群象周围站了一个人，今年已经可以做到一群象周围站的是奥巴马。

但你如果让一个真正的人去看这幅画，如果大家对美国大选和美国政党有一些背景知识的话，其实这里面有很深的含义的，不是说奥巴马站在一群大象旁边这么简单，美国有两大政党，一个是共和党，共和党他的（英）是大象，民主党是驴，共和党的人和他在竞争，这幅画你给一个老美看的话，他这个引申的意思是说奥巴马被一批共和党的竞选者在追赶着。今天我们还没有办法做到这样，这背后需要大量的知识库。我们希望今后我们做到给计算看了这样一幅图片，说出这样的话。

2、看懂视频

第二个是我刚才给大家看了，在图片让计算机看，他可以理解生成一句话，我们后来其实又做了很多工作，把一段视频让计算机看，看完之后他也能够写出这样一段话来，是基于深度学习的，因为视频是三维的东西，所以我们又做了一些跟三维有关系的一些工作，把整个这种圆的模型和视觉分析的模型放在一起，就可以生成一段文字描述视频。

3、增加交互性

第三个方向我们可以让计算机变得更有交互性。

在座的有朋友用过小冰，很多人都跟小冰聊过天，小冰最早用文字跟大家聊天，之后你上传一个图片他还可以跟你的图片聊天，聊天要是有意思的话，如果光告诉你一个图片是什么，其实那是很没意思的，比如说我是一个用户，我给小冰去上传了这么一个图片，如果小冰告诉我说图片里面有两只猫，一只是花猫，一只是黑猫，这个一点意思都没有，所以他要有更深的语义的了解，小冰会说小眼神太犀利了，这对语义的理解又上一步。比如说这些图片上传给小冰，他会说这朵花黄色的都有点透明了，真美，第三幅图你经常去健身房八块肌肉都出来的时候，他会说大叔真努力，如果你的办公室在非常高楼层的时候，你上传他会告诉你，在顶层办公会是一种什么样的体验。这是对图片的理解的第三个方向。

4、VQA

第四个是更难的，第四个就是，他给计算机两个输入，一个是输入是两个图片，第二个输入是一句话，自行车框里装的是什么，给计算机看两个东西，一幅图片还有一个问题，这个问题是自行车框里装的是什么，这个问题就比较难了，但今天在一些例子的情况下，我们已经可以回答这样的问题了，这就是这几年计算机视觉突飞猛进的发展，让计算机知道图片最主要的亮点在什么地方，经过两层迭代他就会知道。

这个东西怎么做呢，有四个方向：

一个是我们需要对它的文字有好的描述，我们让计算机看这样几个图片，同时我问计算机一句话，在一片空旷的沙滩上，两个蓝色的沙滩椅中间是什么，这个其实真的是有点难度，那么经过我刚才说的那些算法，第一层是这样的，第二层最亮的在伞上面，在两个蓝色的沙滩椅的中间。还有一些例子，左上角那个例子，是什么在泥泞的土路上拉着一个人往前走，他知道是马，在这个右下角这个例子，让计算机看这么一副图片，问他一个问题，就是他待的这个角在什么地方，这是第四个方向。

◆ ◆ ◆

三座基石

刚才跟大家一起探讨了计算机视觉过去50年从感知到认知的过程，从最早的特征提取，一步一步在往认知这方面走，今天已经取得了一些初步的成绩，但其实今后还有很长的路要走，还做的不是那么准，看图写文章就更难了，还要接着做，因为我们知道一幅画怎么去把一个很复杂的环境场景能够描述出来，并且能够理解，这仍然是一件非常有挑战性的事情。

那么怎么才能够做得好呢，在座的有很多朋友们是做大数据的，我觉得大数据的朋友们也好，计算机视觉的多媒体的朋友也好，我觉得大概有三个很重要的基石可以把这个事情做好：

第一是机器学习本身，这几年适度学习很热，下一个更好的深度学习的算法在哪里，所以这是机器学习本身要进行的发展。

第二个是Domain expertise，如果光是一批会做机器学习算法的人其实也做不出大的事情，还要要和具体的垂直行业相结合。比如说我们最近跟中科院的植物所有一些合作去识别花卉，春天或者秋天的时候看到一幅画很漂亮没有见过，我问问周围的花也没有人知道。今后如果手机一拍，告诉我这叫什么花，并且还告诉我最早是从南美洲引进的，这些对于我来说非常有意义。怎么能够做得好呢？光有机器学习的专家也不够，我们的植物学家他们知道怎么去分别一个花，看它的花瓣，还是说它的茎他的叶等等，一个好的系统要有一个好的机器学习的算法，加上垂直行业专家的一些支持。

第三个就是bigdata，意思是说光大还不过，光是大数据还不够，我觉得要既大又有代表性。为什么这么说呢，如果我们整个去学习的空间是整个大礼堂的话，然后我们有很多数据，非常非常多的数据集中在这个角落，你让机器学习，学一辈子他就没有办法学对，光数据大不够的，一定要有代表性，我这些数据能够比较好的分布在整个大礼堂的各个角落，那机器学习就能够学的比较清楚。

所以具体小节一下，就是说今后在这个计算机视觉，从感知到认知的过程当中，如果要做得更好的话至少要有三个很重要的方向，一个是机器学习算法的本身，第二个和具体应用相结合，第三个更有意义的数据使得整个系统会做的更好。我就跟大家聊到这里，谢谢大家。

--------

启动仪式上，各行业大咖发布了来自各创新企业与科研机构的11道高质量大数据与人工智能创新赛题，涉及智能电网、搜索广告、O2O营销、舆情分析、监控识别、计算广告、无人驾驶、市场预测、LBS营销、气候预测等多个热门方向，将为图像处理、自然语言处理、用户画像、推荐系统等领域提供大量来自真实场景的问题与数据。

2016CCF大数据与计算智能大赛邀您登陆大赛指定平台DF(DaraFountain,http://www.datafountain.cn),迎接大数据竞赛带来的挑战。

感谢大会主办方提供速记，部分有删改

大数据文摘记者|魏子敏

大数据文摘长期招募实习生和编辑，感兴趣请联系zz@bigdatadigest.cn