分享

如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评?

 大梦未觉W 2018-08-13
如何评价 UCLA 朱松纯教授近日访谈中对深度学习的批评?

原文链接:初探计算机视觉的三个源头、兼谈人工智能|正本清源https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s/MOOZeVzTjZcRZlX7cuSZmw
文中写道:
“比如神经网络和目前的深度神经网络的学习,他们的模型(表达)、算法、和实现的结构三层 是混在一起的。就变成一个特用的计算设备, 算法就是由这个结构来实现的。当它性能不好的时候,到底是因为表达不对,还是算法不对,还是实现不对? 这个不好分析了,目前的神经网络,或者是机器学习,深度学习,它的本源存在这个问题。
以前我们审稿的时候,会追问论文贡献是提出了一个新的模型?还是一个新的算法?在哪一个层级上你有贡献,必须说得清清楚楚。2012年,我作为国际计算机视觉和模式识别年会(CVPR)的大会主席, 就发生一个事件。收到神经网络和机器学习学派的一个领军人物 LeCun的抱怨信,他的论文报告了很好的实验结果, 但是审稿的三个人都认为论文说不清楚到底为什么有这个结果, 就拒稿。他一气之下就说再也不给CVPR投稿了,把审稿意见挂在网上以示抗议。2012 年是个转折点。
现在呢?随着深度学习的红火, 这三层就又混在一块去了。 一般论文直接就报告结果, 一堆表格、曲线图。我就是这么做,然后再这么做,我在某些个数据集上提高了两个百分点,那就行了。你审稿人也别问我这个东西里面有什么贡献,哪个节点代表是什么意思,你别问,我也不知道。那算法收敛了吗?是全局收敛还是一个局部收敛?我也不知道,但是我就提高了两个百分点。”
朱教授不少学生也是做深度学习的,不知道是否规避了文中的批评?

回答

@田渊栋
人工智能话题优秀回答者 卡耐基梅隆大学机器人系博士、Facebook人工智能组研究员

谢邀。

朱教授说的都是对的,现在确实有这个问题。但现实情况是,做理论需要的基础知识多,困难,周期长,没有直接经济效益,还只能一两个人单打独斗且无法使用大量计算资源,每个因素都和现在的主流发展方向(强调团队合作,强调速度和新闻性,代码开源,大数据,大量计算资源)背道而驰。更麻烦的是,辛苦几年做出来也未必会有人欣赏,做的人累,看的人更累,于是好文就淹没在大量的Arxiv里面。偶尔有几个人想去看看,费尽力气却发现某个假设太强,完全和现实扯不上,不免失望。相比之下做应用的文章实验清楚效果明显还立即可用,大家一望便知,名声响,引用多,曝光率高。
所以理论是做给自己看的,有点情怀的人才做理论。一万个硕士博士里有一个怀着这个理想,那迟早有一天会做出来的,大部分人不用费这个力气的。这也符合市场需求,没有什么不好。要是大家都去做理论了,那没有应用成果,深度学习还怎么火下去?对做理论的人来说,竞争激烈了,就更没有慢慢想的时间和空间了。
另外,最近我投的那篇二层ReLU的理论分析,从有了理论到成稿就做了两个月,并没有花几年,之前一直方向不对在瞎搞。我的感触是,真的有了感觉,出文章不会慢的,但是在有感觉之前,要做很多积累,花掉很多时间,这个阶段又苦又难熬,现下很少有人愿意。但若是真想做理论的话,不要被几年这种话吓住了,像我这种半路自学,肯定是走了弯路开悟晚的,就不用当例子了,科班出身的肯定会快很多。
@智靖远 
223 人赞同

几天前看到了朱教授这篇文章,当时就颇为感触,今儿恰好刷到这个问题,强答一发。
实际上这并不是“最近学术界、机器学习界怎么了”这样的问题,而是自古以来就有的一个千古难题:

是理论重要,还是实验(应用)重要?
如果一上来就用这个问题问大家,恐怕答案是满满的嗤之以鼻:“这难道还用问?显然都重要!”

这不是明摆着么,没有实验,哪来的数据来假设和验证理论;没有理论,做再多的实验都是在瞎碰。

同样,应用和理论也是一对相爱相杀的好基友,没有应用提供的环境,就没有理论上的进步;理论不进步,应用迟早也要停滞。

老祖宗早就说了,学而不思则罔,思而不学则殆,就这个道理么。
然而应用和理论这一对好基友往往不是齐头并进的,往往一个独领风骚,万千宠爱于一身,另一个却在冷宫中苦苦挣扎,直到某一日一鸣惊人一飞冲天,情况便恰恰颠倒过来。
其实人类的科学发展史,往往都是这样一条曲折的前进道路。
新现象->新实验->新理论->新装置->新现象->……
大概就是,一个新的发现,引发了很多人在这个基础上做大量的扩展实验,实验积累足够之后,凭借大量积累或者个人的天才,提出了新的理论,理论指导新的进展,进展引发新的生产力进步,生产力进步提供了新的设备和资源,设备和资源支持着发现了新的现象。
深度学习或者叫神经网络这门学科,目前就处在这样一个情况:

没有足够指明根本的理论指导,很多办法大家也说不出究竟为什么,就是闷头试,偏偏还挺有效果。

也就是新现象->新实验,还没有新理论的状态。
科学史上,类似如今这种状态,几乎发生在每个领域的开端:

人类从几十万年前就开始用火,各种用火,最后连燃烧弹都搞出来了,而“燃烧”这个事儿的本质,却是几百年前刚刚才搞明白。

从1859年本生和基尔霍夫搞出来光谱分析的办法来发现新元素,短短时间一众科学家发现了十来种新元素,而为什么不同元素会有不同的光谱,则是量子力学出现之后才比较完整地解释出来。而大伙用本生灯烧这个烧那个,烧出来好多新元素的时候,甚至连元素周期表都还没有被提出!

从1911年发现了汞的超导性之后,大家不断尝试各种结构各种性质的材料,现在据说已经把超导温度推高到200多k了,而这个超导的本质原因和模型,实际上似乎到现在也没有一个足够“本质”的解释,终究还是要靠尝试。
而这种状况下,理论研究自然是绝对必要而且重要的,但是“一窝蜂”式的实验也并非像朱教授所说的那么不堪,更不可能会谋杀掉这个生机勃勃的领域,只不过是可能浪费了很多物质资源和聪明的头脑而已。而且,如果没有一个爱因斯坦那种天才的大脑来给人类节省跨越的时间,小步实验,逐渐逼近恐怕是人类唯一的选择(您瞧超导那帮人一百多年过去了还没有理论指导呢,调参党有什么可叫苦的)。
另一个角度,当前的热潮也并不仅仅是由于新现象引发的,正相反,从某种意义上,它实际上是一个沉淀的理论变现的过程。

机器学习理论不新,方法也不新,只是因为以前工业界不能提供足够的算力,使很多办法停留在纯理论上。突然大家发现居然反向传播/多层感知器能在有生之年算出来了,自然就开始摁着这个玩意,先玩上几年再说……

而现在各种模型层出不穷,变着法的刷PR(朱教授还调侃说CVPR的PR就是precision/recall,真是贴切:),其实只能说是工业界的进展终于追上了理论沉淀,开始了理论向应用转化的过程。
这种现象也不罕见,电子显微镜和粒子对撞机刚出来时候大家也都是玩命地扫扫扫撞撞撞,只不过人家那个理论基础是相对清晰的,所以没什么值得诟病的地方(其实标准模型的提出也是在对撞机之后了,对撞机的出现对于标准模型也有很大助力)。
我的看法是,这个过程不会仅仅停留在大家刷刷PR,水水论文的程度,而是会更进一步,从学术界到工业界,甚至引发整个社会生产力的再一次进步,开始反哺学术界,直到之前的技术积累被吃空,而实验又无法提供新的爆发点为止。
所以说,能把这个从科学原理或者数学上解释明白的牛人,必然能名垂青史,朱教授呼吁大家往这条路上走,我是赞成的。然后在这个牛人没有出现之前,觉着自己可能不是“The One”的人,也别闲着,该调参调参,该水论文水论文,该刷PR刷PR。
那句话怎么说来着,谁谁谁研究量子退火凸优化,谁谁谁把ILSVRC刷高了0.3个百分点,谁谁谁被某司以七八位数年薪聘走了,我们都有光明的前途。
@张翔 
NYU Ph.D. Student

注:收到了许多赞,我觉得有必要说明一下这个答案不是一份完整的评价。这篇答案仅仅是对于“智能(包括视觉)现象是否可能归约成严谨的描述”这一方面的讨论,主要是在补充和平衡其他回答者的答案,并没有评价朱教授在其他方面的意见。在其他一些方面,比如对于审稿人的期待,对于产业界过分宣传的批评,对于视觉领域历史的总结和对于学术论文应该更多应用科学方法论等方面,我觉得朱教授说的是非常有道理的(但在这些方面的一些细节上我持一定保留意见)。
我觉得这种讨论的背后焦点要比理论和应用的关系更为深刻,它表明的是不同的学者对于智能(包括视觉在内)完全不一样的学术方法论。这种争论有一个并不明显但是非常重要的假设上的不同,那就是实现智能“是否需要”和“是否有可能”像物理学那样去将复杂的体系简化成易于理解的严谨描述。这一描述在物理学里面几乎是一致地数学的,因为它是目前人类可以用于严谨描述规律的唯一方法。然而若是要研究智能现象本身,它是否能够被归约成(Reduce)严谨的规律还是一个未知的事情。
但是,绝大多数经过长期科研训练的科学家在无意识的情况下将“所有现象都可以简化成严谨描述”变成了类似公理的假设,然而他们却从来没有思考过这一假设是否适用于智能本身。这一思路较为极端的例子应该算是英国的罗杰·彭罗斯(Roger Penrose)爵士,他连续撰写了三部书《皇帝的新脑》(The Emperor's New Mind)、《意识的阴影》(The Shadow of the Mind)和《庞大,渺小,及人类意识》(The Large, the Small and the Human Mind),来阐明意识(我认为这里的“意识”与“智能”没有什么定义上的差别)的解释需要完整的量子引力(Quantum Gravity)理论,并且用图灵机停机问题和哥德尔不完备性定理来说明目前基于经典物理的技术不可能创造出意识来。然而,完整的量子引力理论时至今日都是不存在的,不然就不会有《星际穿越》(Interstellar)这么好看的电影存在了。以彭罗斯为代表的科学家在这方面仅仅是作了一些猜测,远远不能证明他们是对的。此外,彭罗斯对于图灵机停机问题和哥德尔不完备性定理的使用是对于机器的,将人变成了第三方的视角。然而第三方的视角对于主体而言必然不会存在这些悖论,如果想要出现这些悖论,每个人类个体应该考虑的问题是他自己而不是别的逻辑系统。也许哪天外星人看到了我们人类,然后在人脑的某种模型中应用了一下康托尔的对角线原理,然后说“看,人类是没有智能的,因为他有悖论”——这明显是错误的思考方式。这一派的人其实还不少,比如施一公、饶毅(相关参考:巅峰对话:生命科学的欣赏、普及、升华)还有题主的朱教授,以及绝大多数理论学派的学者(注:这里面其实只有一小部分人认为这个智能理论需要量子重力理论为前提,但他们都认为智能现象是可以归约为严谨描述的)。不过他们也许并没有意识他们使用了这一假设来看待智能。
这一派的特点是对一切都尽量追求完美的解释,如果能够将所有的智能现象都归约成一个公式那是最好的了。不过,目前来讲这样的尝试还没有完全成功。一个例子是传统的统计机器学习理论,应用到实际模型上因太过偏离实际应用而变得没有办法参考,不过这是因为这些理论都是对最坏情况的“上界的上界”,自然无法描述实际使用的一般状况。深度学习的发展在一定程度上是跳出这种“上界的上界”的限制的过程,当然在这个过程中也受益于数据、计算量和模型等各方面的进步。不过我个人觉得这一派的研究其实是非常有用的,即使最终无法将智能归约为几个公式的理论,在这个过程中能够搞清楚那些可以搞清楚的也是非常有价值的成果。
反过来,有另外的一些研究者则认为智能作为一种现象,实际上只是人类对自己生物系统(特别是神经系统)复杂性的一种直观描述。因为复杂性是它的根本要求,因此它是不可能被归约成(Reduce)严谨的规律的。这种不可归约性甚至包括了“如何定义智能”这一问题。图灵在1950年发表的著名哲学论文《计算机器与智能》(Computing Machinery and Intelligence)中所提出的“图灵测试”(Turing Test)就是一种基于这种观念的对智能的定义,即只要被测试者大体上(即统计上)无法与由判定人(Judge)一致认可的智能参考物(即人自己)有所区别,那么就可以认为是有智能的(在我看来,这一描述实际上是一种早期且非严谨的PAC学习理论雏形)。我个人觉得这种承认智能复杂而不可归约的看法才是朴素而有用的。深度学习的祖师爷辛顿(Geoffrey Hinton)在2016 IEEE/RSE James Clerk Maxwell奖章颁奖典礼上就曾说过,图灵和冯·诺伊曼本来就不承认基于逻辑可以创造智能。如果联系历史,我个人猜想他们拒绝的是整个认为智能可以归约成严谨规律的思路,而类似神经网络这样的工程化方法也许才是进步的源泉。更何况,我们互相承认每个人类个体都是是智能体,然而我们从来没有要求我们每一个体都必须将另外的个体归约成一个理论或者搞清楚他神经元的每个状态才能去理解他——这在物理上是不现实的。随着人造机器计算能力的提升,我们也许会不得不只能去关注系统的行为,而对其内部运作的机理则只能处于无法归约的层次上。这当然也取决于人类智能的物质基础,如果日后我们人类的生物大脑变得无比强大,那个时候看待现在的神经网络也许就跟我们看待过去的机械算盘一样明白了。此外,就算个体智能可以归约成严谨理论,还有比人类个体智能更为庞大的现象,那就是人类社会和人类的进化(如何创造机器实现社会和进化?)。
目前大多深度学习的研究都是基于这一思想的,主要在模型设计、优化算法、应用领域等实际的方面来拓展。我个人觉得,既然这样的尝试目前来讲还没有看到尽头(比如不断的有新的任务通过深度学习方法变得可能),那么就没有必要以“发明一种理论来描述所有深度学习”作为目标,因为我们还不清楚深度学习这一系列方法在实用中的边界在哪里,更不清楚“将智能现象归约成严谨的规律”在根本上是否可行。
在结束之前我想说明的是上面的两种派别的区分并不是绝对和独立的,有许多研究员在完成许多优秀实际工作的同时,也为理解这些模型提出了非常好的理论。尽管这些理论不像物理学科那样有强大的归约性,但是依然是非常重要的。
利益相关:目前在以深度学习为主的实验室读博。

提问

深度学习的研究领域是否有被过度夸大?
我是个机器学习领域的门外汉,最近经常在weibo和科技网站看到深度学习的字眼,感觉很神奇也很深奥,但偶尔在一些学术的论坛里也看到了不同的声音,其实我一直在关注这个领域,却是有一种感觉,很多时候那些专家大牛的宣传能力比这些技术的实际效能要大很多,有没有这方面的大牛,评论一番,让我们批判式的思考一下

回答

@张翔
一方面,深度学习领域确实存在噱头的现象,主要是在有些人利用传媒说深度学习是在模仿大脑。从实际上来说,大脑神经科学的发展还远远不足以使我们找到足够形成算法的机制来形成智能,也还没有能力去证明或者证伪深度学习于生物神经系统的相关性,更无法说明深度学习是不是真的像大脑。但是,深度学习在某些地方确实是受到了神经系统的启发,比如说多层结构和卷积过程。现在只能说是受启发,而不能说是模仿。不过我觉得随着美国和欧盟两个大脑研究计划的深入,类比深度学习系统和大脑工作方式的相同点和不同点会在将来成为可能。
另一方面,这种“深度学习研究领域过分夸大”说法的产生还有完全相反的一面。除了媒体噱头是真的夸大之外,学界还有一种对于深度学习方法的逆反应,表现出来就是会有一些人片面地说这个领域被过分夸大,而不去真正比较过去的系统和现在系统有效性的巨大区别。这种学术惯性又分为两类,一类是那些耗费许多精力掌握了一些领域性知识的人,他们不愿意接受机器不需要那些领域知识就可以得到很好结果的现实,这个在深度学习逐渐革命计算机视觉和语音识别上的过程中表现的尤其明显;另外一类是机器学习界内部偏向于理论(特别是PAC理论)的人,他们过于担心深度学习这种工程系统的泛化性和一致性,不愿意接受其有效性的经验性证明而只沉浸于那些拥有美好数学的简单方法之中。
个人认为,深度学习的噱头现象必须打压下去,因为噱头是到头来最容易伤害一整个领域的东西。但另外一个方面,传统的领域性学科应该逐渐接受深度学习的有效性,并将其作为基本工具之一来采用。同时,机器学习理论学家应该意识到泛化性和一致性证明的局限,理解那些“上界的上界”所得到的结果对于深度学习来说是极其偏离真实情况的,同时要抛弃对VC维之类概念的迷信,尝试使用泛函空间(如Banach Space)中的概率论(特别要注意函数嵌套的作用)来解释可学习性。
最后,奉上图灵祖师1950年论文《Computing Machinery and Intelligence》中第三小节第一段的一句话:
“We also wish to allow the possibility that an engineer or team of engineers may construct a machine which works, but whose manner of operation cannot be satisfactorily described by its constructors because they have applied a method which is largely experimental. ”

“我们(在考虑图灵测试中的机器时)也应当允许这样一种可能,那就是一些工程师可能会建造一台机器,它能够完成任务(通过图灵测试),但其工作的原理却未必能够被其创造者所完全理解,这是因为他们采用了一种试验的方式(来建造这台机器军事,航空,汽车设计,科学探索,生物,医药等各个领域里的应用
QQ群:326600878

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多