本文内容摘自数据火车微信公众号。
首先,我们现在人工智能到底在什么阶段,从科研来看,从商业化来看?从各个方面看,比如自然语言对话、图像识别、推荐系统、机器人等
Very early stage, far far from what you see in movies, but enoughprogress to make useful products and sometimes impressive ones.推荐系统目前已经广泛商业化,在商品推荐,个性化广告等,但是推荐系统虽然在互联网公司广泛运用,但是似乎很难依靠推荐系统做出一个独立的服务商业模式,这点和搜索以及广告不同。图像识别和语音识别最近的进展,主要得益于深度学习,目前语音识别在从90%向97%~98%冲刺。而图像识别,要相对滞后,但是最近几年发展迅速,将会看到一些成熟的商业应用。从历史看AI的基础科学走过了两个阶段:expert system 的研究发展和应用,和machine learning的研究发展和应用(虽然后者的潜力还远没开发完)。每一次基础科研的进步,一定会带动科技工程和产业的发展。我认为我们现在看到的,就是机器学习这三十年积累下来的果实。从视觉来看,视觉分几个层面:perception, cognition, and action. perception主要是指的基本识别,如shape, color, motion, objects, etc. 在这方面,因为机器学习的进步,尤其是软硬件的飞跃,我们开始看到接近应用层面的结果了,虽然object识别还有待提高。但是,我们离cognition还很远。人工智能近来的发展确实振奋人心,这主要是得益基于大数据的机器学习进展。一些well-defined benchmark问题得到很大的进展。这里指的cognition,包括了类似人类的知识acquisition, abstraction and creation的能力,分析能力,情感和情绪能力,推理能力,等等。说一下当前最热的人脸识别,现在识别准确率真的超过人了吗?如果没有,那么在最近的一段时间里,会超过吗?但是同时一些关键问题,比如逻辑和知识的表达,仍未很好地解决。但是有很多问题,还不能很好地归结在现有的机器学习的框架下。关于机器人,我认为大的发展刚刚开始,目前在perception (感知), control方面会有很大的进展,但是cognition(认知)等方面,涉及高层语义以及世界知识,还有巨大距离。所以,如果说现在机器人,想实现阿猫阿狗等宠物的智能水平,我觉得是有现实意义的,但是离人的智能,还不现实。所以在考虑商业模式的的时候,这点要考虑。特定情况下超过了人,或者说普通人。这也不奇怪呀,人的基本计算能力很差劲的。我看过一段Andrew N的视频。他提到现在的深度学习有很大的发展,因为有很好的Rocket Engine (faster computes and esp. GPUs) and Rocket Fuel (bigdata)。我觉得很有道理。人脸识别的确机器可以比人做得更好。我自己的人脸识别能力就非常弱。我同意Andrew的说法,但想补充一点:这些问题解决好的有well-specified performance metric and optimization criteria, so theywill benefit more from big data and fast computation.哈哈,人脸识别上机器可能更好。但在变形物体上人一般比机器强。AI的各个分支会在不久的将来在PERCEPTION方面大大超过普通人。但是就像今天的人造飞机比小鸟飞的又快又高,到现在也做不到小鸟的灵活、起落和其他各种飞行能力。IBM Research 在做语音识别时,很早就提出了superhuman recognition (of speech).人脸识别的能力,应该是和人相近,或者在有的方面超过人了。比如关于对于身份证件照的人脸验证,在误认率为0.01%时,拒识率可以达到10%,对于百万级别的人脸库,这个能力已经超过人类。人类的人脸识别水平,没有我们想象的高。大家对于高中同年级的同学,可能除了同班的,大部分都记不住人脸,尽管在校园里打过多次照面。人类的智慧在cognition and action方面的能力是很深刻的,我们还有很多基础科学的工作需要做。完全同意飞飞的观点。目前的人工智能可以在某些特定的应用上超过人类。但是这和造出一个像电影里面的机器人还是有很大的差距。关于沙飞说的现有框架的有限性,一个例子是目前人工智能系统在因果关系上的推理能力也很有限。我们接着谈一下当前在人工智能领域最火的名词“深度学习”。当前特别火的深度学习,为什么这么火,能够解决什么问题,有什么优势?有什么局限吗?深度学习的基本思想和方法,其实在80年代末就提出。今天之所以受到重视,更多的是因为大数据和计算能力,以及互联网应用需求的拉动。目前深度学习的巨大优势,主要体现在感知,比如语音识别,图像识别。Alan的例子很好可能也是深度学习现在还没解决好的一个问题: causality inference, does not necessarily depend on the amount of data one needs to see.深度学习是80年代的一支机器学习神经网络的新名字。数学框架没有变得。但是硬件和数据的支持使得这种有high capacity的计算结构发挥的优势。能够解决什么问题:语音和图像是深度学习的经典应用。在NLP上大家也看到希望。从数学上讲,所谓机器学习就是用一堆的数据去fit在一个model in a sparse model space. if your model space is bigger, you can potentially find a better fit.深度学习在最近针对序列数据,比如使用RNN, LSTM, 有非常激动人心的发展,这些进展很可能推动语音识别和自然语言处理向前大踏步前进。深度学习在工业和产业界的大量应用是machine learning既regression和support vector machine之后的又一激动人心的应用。在perception的问题上会让我们看到很多有用的产品。@Ke: 问题是how to prevent overfitting. 深度学习主要是通过大数据来实现。但是想大家所说的,今天的深度学习是“浅层思考”, Deep Learning but Shallow Reasoning。深度学习无非是把这个model space增大了很多— RNNs are proven to be Turing complete. 所以他的potential很大。传统上来大家不知道有什么好的方法来train.但是现在的rocket fuel and rocket engine。@沙飞,是的,causal inference has been there for a while but largely ignored by machine learning and AI people. I don't see how deep learning can help here.深度学习还有一个激动人心的应用,就是learning to control. 我认为机器人的控制,会因为DNN reinforcement learnign的方法而发生改变。现在的机器人跳舞,只是邯郸学步,很笨,很傻。基于深度学习的机器人,会听着音乐节奏,自己跳舞。听起来深度学习是当前最有突破点的技术,有很多可能。除了深度学习之外,最近还有什么在机器学习领域令人振奋的点吗。从数学上看,深度学习是机器学习的非常自然的下一步: you move to a more complicated model with bigger model space sothat you can fit better without outfitting是的,learning to control echoes neural dynamic programming所以,在从感知到控制,DNN是rocket engine. 在认知层面,DNN刚开始,但我相信是正确方向。从数学上看,深度学习是机器学习的非常自然的下一步: — agree KeYang深度学习急需解决的一个问题是knowledge representation。不能什么都靠大数据,即使是shallow的transferlearning也解决不了这个问题。and has tons of potential applications.在google有人开玩笑说 60% of the time, google brain works all the time.我觉得很有道理。深度学习在一些领域非常成功,但并不是万能药。我觉得深度学习是机器学习的一个重要方向,但未必是唯一方向。关于飞飞提到的knowlege representation, 需要顺着目前深度学习distributedrepresentation的思路进一步发展,但是我认为需要有新的创新Let me give an example of 'shallow reasoning': I am traveling in Germany. I do not speakGerman but I need to take subways to go between places.just to make the discussion more interesting — 我认为深度学习是机器学习的唯一方向An important 'skill' I need to do is to infer from subwayannouncements of arriving stations whether I have reached the rightdestination.@余凯主要是现在什么都叫深度学习,所以当然是“所有方向就是唯一方向”嘛哈哈,now it is more interesting :) 我爱余凯但更爱真理This requires me to figure out (1) how to determine theprounancing of the destinations inGerman (2) how to segment the sounds in a language that I do not know, in anoisy environment (3) how to match robustly. All those require 'deep reasoning'主要是现在什么都叫深度学习,所以当然是“所有方向就是唯一方向”嘛—我觉得作研究的人也喜欢跟风。现在深度学习热了,什么人都在作深度学习。所以放眼望过去,深度学习真的是唯一的方向— for now.但是我觉得讨论所谓的深度学习是不是“唯一方向”意义不大,尤其是如果这只是一个文字游戏的话。我虽然相对各位外行一些,不过确实满眼都是“深度学习”但是我相信以后会有更多的理论和技术出来,那时候他们还叫不叫深度学习,真的只是一个文字游戏在三年前,或者六年前,其实不是这样的。90%的机器学者是怀疑的。要知道机器学习领域像是时装界,最时髦的词汇一直在变。深度学习的思路结合机器学习这三、四十年的很多精髓:optimization theory, hierarchical architecture, and supervisedlearning. 如果这些叫深度学习的话,也就是文字游戏而已。深度学习其实本身的确是一张方法论,一种框架,不是几个具体的模型。其实不是文字游戏。我举一点: end-to-end training, 这是深度学习带来的思想。@余凯那也不是新的 -- LeCun etal's gradient-based modular learning system has been around for a long while.不过看来从广义角度来讲,深度学习当前确实代表一个大方向。但是我同意飞飞讲的,深度学习的确吸取了几十年来机器学习的很多精髓,比如: structured output, latent-variable models.沙飞, LeCun恰恰是一直以来深度学习思想的鼓吹者。That is why he says 'What is wrong with deeplearning?' haha深度学习也不能刻画uncertainty,在金融应用中往往不确定性和风险联系在一起。end-to-end training对深度学习hard core的人来讲,是一种宗教信仰最后,从未来5年来看,大家可以看到在什么领域或则方面,人工智能会进入人们的生活,哪些产品或者服务会大有机会,比如智能家居?自动驾驶?智能监控?机器人?,在更宏观的领域,会对医疗,金融,教育,工业等,带来什么深远的影响。深度学习也不能刻画uncertainty —当然可以,你可以给weights加上prior其实end to end是很多machine learningalgorithm的理念,但是目前确实深度学习应用的最好!事实上,uncertainty quantification is a big problem for just about anylearning models只要有数据的地方就会有数据分析,只要有数据分析的需要就有人工智能。其实是给企业家,投资者,创业者看的,从我们专家的眼里,看到的未来几年的热工智能产业机会在哪里?只要有数据的地方就会有数据分析,只要有数据分析的需要就有人工智能— 是的同意目前深度学习实用性最好,更general 的深度学习观念可以更广的实用。更general 的深度学习观念可以更广的实用— 是的。不过,对实用的深度学习,加了prior 就没法算了。我们的社会正转型为数据时代,那么人工智能就是数据时代的王者了所以,uncertainty还是搞不定的,在大规模实用系统里。我们不应该过多的看过去,深度学习已经做了什么,更应该看未来,我觉得漆远说的对,更general的深度学习可以更广泛更实用。其实刚才几位也说到了,其实叫不叫深度学习,并不重要,重要的是什么思想。人工智能早已进入你的生活了。语音识别又是一根很好的例子。搜索引擎里也用到很多人工智能的东西。这一方面百度好像还走在谷歌前面。现代的汽车一般都有几十个电脑--都不需要自动驾驶车。但是广大老百姓心目中的人工智能是带有情感、情绪和像人一样的灵活分析纠错和行动能力的东东。@Ke Yang 同意。但看起来还是早期。我觉得现在的人工智能应用,跟94-96年互联网那样我觉得,在线教育,是深度学习大规模应用的一个垂直领域实话实说。其是谷歌里面还是有很多深度学习的应用。很多我们也没有说。但是我们总体会慢一些事真的。非常早期,一切都有可能,但是都没有真正大规模的用起来,到用户非常满意的程度实话实说,百度过去在机器学习方面的积累少,所以可以更大胆的应用深度学习,这有历史原因。我也爱阿里的alan qi, 哈哈我们的社会正转型为数据时代,那么人工智能就是数据时代的王者了-- 这句话我不一定赞同。就想说大家都用电脑了,做CPU才是王道。任何一个事情都需要多方面的积累,但是CPU是关键的一环。语音识别,图像识别,自然语音理解,我觉得会持续推进。这三个领域,应该会诞生3个500亿美金市值的公司,在今后的10年里。大家拭目以待 我觉得人工智能会慢慢变成一种commodity,所有人都会用到。就像多核处理器一样,原来觉得很玄妙的东东,现在手机里都变的士。关键是要找到好的killer app同意杨克的说法,不过在人工智能变成一种commodity前,确实会很可能有人工智能公司的rising我同意杨克的观点,技术本身会慢慢变成不是最关键的,关键的是使用这些技术,真正解决实际问题余凯:教育,金融,医疗,交通,智能家居,娱乐,等领域,都会有大的机会。教育,金融,医疗,交通,智能家居,娱乐,等领域,都会有大的机会。@余凯,确实,现在机器学习工程师确实一人难求啊!各位搞这个方面的,可是生逢其时啊!说实话,要是数据不是问题,我认为今天的人工智能已经能在80%的病症方面达到普通医生水平。哈哈,看来医疗这个方面,未来大有可为啊。教育方面呢?大家如何看?@余凯,那就是人工智能做好老师和家长的教学助理?对吧more precisely, 'data-driven personalized education monitoring/tutoringsystems'机器人方向呢?你们觉得服务机器人未来5年会大行其道吗?follow 前面的话题:大部分人大部分时间得的病都是小病,所以人工智能在医疗上可能会很有实际用处的。在中国,服务机器人没准也很有用处的;银行的服务窗前队伍太长。比如Nest的平台,本身就在朝着智能机器人的方向走,虽然不是人形机器人那就是智能硬件,智能家居这个方向?传统的东西,更有智慧这些家用的物联网上的东西,会最早应用到底层的人工智能,形成智能物联网。人工智能会从最琐碎的事情开始代替人。现在的电梯都是无人的。现在的车的cruise control越来越好,都是典型各位觉得,在人工智能方向,创业公司和大公司相比有什么优势劣势?小公司有机会翻盘吗?所以我觉得医疗上会是从边缘的地方开始,比如说 triage, screening, etc. 取代医生还需要一段时间纵观人类上下五千年,小公司永远有机会翻盘,然后变成大公司被淘汰大公司有机器有技术有数据,但可能少了些craziness和不同的角度。还少了些灵活度。大象跳舞不太容易的。所以小公司总有机会。但大公司,也许尤其在中国,确实是有天时地利人和的优势。同意。余凯同学刚刚离开百度,所以我可以猜到他是怎么想的。我前天刚刚从谷歌离职,也要加入一家小公司。smaller companies distrupt bigger ones大公司会在自己的核心领域不断加力,但是在核心领域之外有所作为,会比较难。要么对话部分先到这里,我们进入群友提问时间,如何?
嘉宾回答如下:
如果数据不是问题,那么人工智能能解决80%的问题,可是现在的数据就是问题,大量的非结构化文本,需要进行清理,这种耗时的工作,对于小初创企业该如何解决?”首先我的那个数字猜测是有关普通医疗疾病的,非泛指。这个问题非常好。如果是做科研,我会说从非结构数据中学习是非常好的研究方向。但如果是创公司,建议三思。数据是基础,可以考虑和大公司合作拿数据,或与数据公司合作做好数据。(李飞飞)
有没有什么对于想在人工智能领域创业的兄弟们一点建议?我相信大家在技术上已经是一身武艺,所以应该聚焦于人工智能之外的东西,忘掉自己是人工智能公司,而是思考自己是解决一个什么问题的公司。(余凯)
'如何看待神经科学与深度学习?深度学习的新一轮理论突破是否需要关注神经科学的发展?' I am going to say something that is controversial: I do not believe there is an inherent linkbetween deep learning and neuroscience and whether that link exists is largelyimmaterial to advancing either AI or machine learning.(沙飞)
'如何看待神经科学与深度学习?深度学习的新一轮理论突破是否需要关注神经科学的发展?' I am going to say something that is controversial: I do not believe there is an inherent linkbetween deep learning and neuroscience and whether that link exists is largelyimmaterial to advancing either AI or machine learning.(沙飞)
“如果从人工智能创业方面来说,小创业公司可以从什么地方做起?”可以从“从大公司没覆盖到的pain point 下手”,同时也可以考虑和大公司合做,比如帮助解决大公司的问题来获得大公司的支持甚至收购,或者利用大公司的资源(比如阿里云的计算环境)来加速公司发展。(漆远)
如何看待神经科学与深度学习?深度学习的新一轮理论突破是否需要关注神经科学的发展?以及神经科学的发展对于未来的强人工智能时代有何推进作用?”好问题我个人大赞推神经生物和认知学。人类的希望还是在对真理的追求中的。不过我认为deep learning和神经生物学相差甚远,过于混淆不是好事。(李飞飞)
P.S.如果您认为这篇文章不错,请分享至朋友圈。分享知识,传递快乐 :)
原创干货 清华大数据系列讲座 回复“应用创新”,看: 大数据分析 数据为王和机器智能的时代 基于大数据的视频广告应用创新 金融大数据的法律实践 回复“技术前沿”,看: 大数据技术前沿的十个问题 数据驱动下的数字视频广告创新 大数据人工智能 回复“RONG一”,看: 新闻传播大数据系列报告 回复“RONG二”,看:
医疗健康大数据系列报告
线上分享 清华大数据产业联合会系列群聊 主群 会员群 理事专家群 应用群
技术群 EMBA群 医疗健康群 深圳群 北美群 长三角群 申请加入群聊步骤: 1. 回复“报名”取得清华大数据产业联合会会员报名表 2. 添加小数点ID: decimal_point并注明“加群”,每个申请人可最多进入两个微信群 3. 若无特别申请,小数点根据申请人填写的报名信息安排入群
清华@数据派 ID:Datapi 清华大数据产业联合会的微信公众平台,旨在传播数据科学理念,分享数据运营心得,扩展数据应用空间,捕捉数据产业商机。定期发布线下活动预告,独家发布讲座素材,清华大数据产业联合会活动报名唯一渠道。寻求合作请联系微信号@小数点(ID: decimal_point)
|