【原】【AI大咖】扒一下低调的Yoshua Bengio大神

有三AI 2020-11-27

展开全文

说五个关键词，你会想到谁？

花书作者，2018年图灵获奖者，银灰卷发，theano，MILA，你心中的答案会是Yoshua Bengio么？

关于他的故事，且听我细细道来。

作者&编辑 | 小满&言有三

一头银灰相间的卷发，一对漫画式的粗眉，思考时频频上扬，微笑时又极具表现力，他就是今天的主人公——Yoshua Bengio。

1 30秒了解Yoshua Bengio

Yoshua Bengio（约书亚·本吉奥）因深度学习工作与Geoffrey Hinton和Yann LeCun共同分享了2018年图灵奖，被公认为世界领先的AI专家和深度学习先驱。1964年，出生在法国巴黎，和Lecun童年生活在同一个城市的不同角落，现与Hinton一样选择生活在加拿大，拥有加拿大CIFAR AI主席一职。

Bengio大学就读于麦吉尔大学“计算机工程学”专业，1986-1991年继续修“计算机科学“到博士毕业，随后一段时间在麻省理工学院做博士后研究员，1992年到美国AT&T贝尔实验室LeCun小组做学习和视觉算法研究工作。

1993年起，他一直在蒙特利尔大学教书育人，负责计算机科学与运筹学方向。他也是蒙特利尔学习算法研究所（MILA）创始人和科学主任。MILA，一家独立的非营利组织，世界上最大的深度学习研究小组，拥有来自地球上很多公司和AI创业公司的研究实验室。

2 代表性研究论文

1、LeNet5卷积神经网络提出：LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

2、NLP模型：Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(Feb): 1137-1155.

3、逐层训练方法：Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[C]//Advances in neural information processing systems. 2007: 153-160.

4、AI架构：Bengio Y. Learning deep architectures for AI[J]. Foundations and trends® in Machine Learning, 2009, 2(1): 1-127.

5、Stacked denoising autoencoders提出：Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11(Dec): 3371-3408.

6、Xavier初始化：Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the thirteenth international conference on artificial intelligence and statistics. 2010: 249-256.

7、ReLU激活函数使用：Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of the fourteenth international conference on artificial intelligence and statistics. 2011: 315-323.

8、Theano框架：Bastien F, Lamblin P, Pascanu R, et al. Theano: new features and speed improvements[J]. arXiv preprint arXiv:1211.5590, 2012.

9、RNN训练问题：Pascanu R, Mikolov T, Bengio Y. On the difficulty of training recurrent neural networks[C]//International conference on machine learning. 2013: 1310-1318.

10、Maxout激活函数：Goodfellow I J, Warde-Farley D, Mirza M, et al. Maxout networks[J]. arXiv preprint arXiv:1302.4389, 2013.

11、生成对抗网络GAN：Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in neural information processing systems. 2014: 2672-2680.

12、机器翻译：Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

13、二值神经网络：Courbariaux M, Bengio Y, David J P. Binaryconnect: Training deep neural networks with binary weights during propagations[C]//Advances in neural information processing systems. 2015: 3123-3131.

14、三巨头深度学习综述：LeCun Y, Bengio Y, Hinton G. Deep learning[J]. nature, 2015, 521(7553): 436.

15、image caption与attention： Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning. 2015: 2048-2057.

16、深度学习教材：Goodfellow I, Bengio Y, Courville A. Deep learning[M]. MIT press, 2016.

17、语音生成：Sotelo J, Mehri S, Kumar K, et al. Char2wav: End-to-end speech synthesis[J]. 2017.

Yoshua Bengio总的论文引用量为170000+，学术研究一直都很活跃，随着深度学习持续火热，引用量近几年大幅度增加。

所有的论文，在以下GitHub项目中可以获取，或者给公众号发送关键词消息“Bengio”，即可获得下载链接。

https://github.com/longpeng2008/Awesome_DNN_Researchers

3 代表性个人成就

2009年ACFAS Urgel-Archambault奖

2017年加拿大勋章官员

2017加拿大皇家学会会员

2018加拿大AI协会终身成就奖

2018年图灵奖

2019年Killam计算机科学奖

2019IEEE CIS神经网络先锋奖，IEEE计算智能学会

4 AI修行，兄弟伴我左右

4.1、如有巧合，那一定是兄弟

上图两位AI大咖相似度99%，有没有？

没错，一个普通家庭诞生了两位成功的AI计算机科学家，Samy Bengio（Google Brain的机器学习科学家）与Yoshua Bengio。

Bengio兄弟俩出生在法国巴黎，没有类似Hinton的学阀家族背景，父母是嬉皮士，从小就随父母到处搬家。曾因父亲服兵役的原因，1977年时搬家到了父母的出生地北非摩洛哥生活了一段时间，又因战争举家搬回了法国生活了几年，不久后移民到加拿大，开启了新生活。辗转几次搬家，走过了世界的很多角落，父母为兄弟俩种下了人文主义的种子。Yoshua Bengio说：他有责任照顾生活在发展中国家的人。

4.2、兴趣是最好的导师

Yoshua Bengio回忆在青少年时期，兄弟俩曾努力攒钱买下了，生命中第一台共同小型计算机Atari 800，从此打开了计算机兴趣的大门。他们用Basic语言编程，还将程序保存在磁带上，那时软盘还没有出世。兄弟俩在大学期间都选择了与计算机相关的专业，Yoshua在麦吉尔大学选择了计算机工程，Samy在蒙特利尔大学修计算机科学。

短暂的分别后兄弟俩因“神经网络”又重新粘合到一起。研究生期间，接触了AI教父Hinton有关深度学习理论的论文加上《平行分布处理》一书的上市，让Yoshua疯狂的爱上了AI和神经网络，激动地为Samy介绍，并开始了深度学习的博士研究。

兄弟二人在很少学者研究的领域中一起执着着自己的眼光，“我当时觉得其他人都是错的，只有我是对的”，当在AI低潮期时，两人在相同的领域坚持着了各自的研究。幸运的是，加拿大政府几十年一直投入基于好奇心的研究基金，即使在AI寒冬，也可以保证研究的"温饱"，加上加拿大CIFAR最终确定下来的支持网络，从心理上帮助Bengio兄弟二人专注选择的方向。与Hinton一样，选择加拿大，因为CIFAR与自由。蒙特利尔大学和麦吉尔大学官宣有1500名AI研究员，人才集中度高于世界上任何其他地方。

4.3、短暂的分别，是为AI更好的发展

1999年到2007年，Samy选择到瑞士做神经网络研究科学家，那里满足他对深度学习的继续探索，收获了资助和博士生，身在异国，接触着不同的学者，兄弟俩一直研究着共同的领域。有趣的是，他们有一位共同的博士生，先是在Samy下面做研究生，后转到了Yoshua那里，后又跟着Samy一同做博士生。

2007年后，Samy加入了Google，也是兄弟俩研究生涯最重要的时刻，在Google，Samy获取了更多数据和更高的计算机水平，辅助解决更大的机器学习模型。另一边Yoshua一直在加拿大发展，并直言不加入工业界，他认为AI人才流入大科技公司会阻碍这一领域的学术研究。一次采访时，Yoshua说：“科技公司挖走了很多人才，造成了学术界人才短缺。对那些公司来说有好处，但对学术研究来说不是件好事。我能为全人类作贡献，而不是为某一个公司赚钱。”

Google有Hinton，Lecun在Facebook，虽然Yoshua也担任了几家类似三星的企业学术顾问，但他更多的精力还是耕耘在学术界。你很少看到他为商业事件公开露面。很多学生都听过Yoshua的课程，看过不少他的文章，众所周知，牛人讲课认认真真、实实在在、深入浅出，不灌水，不trick，简直就是AI界的一股清流！

Yoshua想保留绝大多数精力去发展他创建的MILA和蒙特利尔的AI生态系统，想通过他的研究和对学生的辅导更直接地为公共利益做出贡献。

5 年龄虽小，但贡献不少

5.1、Bengio与AI界人物关系

论资排辈，自然是Hinton>Lecun>Bengio，还记得之前提到的AI鼻祖Hinton门下徒子徒孙遍地，AI界许多大神都和他有着千丝万缕的关系，以下有个简单的人物关系网。

Lecun是Hinton的博士后，当年与美国飞人乔丹同名的学者Micheal Jordan一心想去Hinton门下读博士后却被婉拒，在麻省理工学院时Bengio又是Jordan的得意门生，随后Bengio在贝尔实验室与LeCun成为同事。Hugo Larochelle在Bengio下面读的博士，后成为Hinton的博士后；LeCun的一位博士生MarcAurelio Ranzato，后也成为的Hinton的博士后。不禁感叹，贵圈不大，牛人总是带着牛人走。

5.2、打响NLP第一枪

世界上数学最好的国家是美国么？不，法国人相对美国人的人口总数少很多很多，但历史上出名的数学家与美国出名的数学家数量相当。法国囊括52枚数学界最高奖项菲尔茨奖中的11枚，美国获得了12枚。从小生活在法国的Bengio，有着高度抽象思维能力，为以后的发展埋下了很深的种子。

Bengio的一篇“A neural probabilistic language model”论文开创了神经网络语言模型的先河。其整体思路影响、启发了之后的很多基于神经网络做NLP的paper，在工业界也得到了广泛使用，还有梯度消失（gradient vanishing）的细致分析，word2vec的雏形，以及现很火的计算机翻译（machine translation）都有Bengio的贡献。

5.3、Theano的开发

Theano发于MILA，由Yoshua Bengio带领了一大批高水平学生开发了这个优化编译器，用于操作和评估数学表达式，尤其是矩阵值表达式，符号计算图的思想同样来自于Theano。尽管它已停止发布，但这个库启发了之后多个库的开发，直接基于它的库有Keras，MXnet，Google的TensorFlow以及Berkeley的CGT等，可以说在同类型库中是当之不愧的鼻祖。

5.4、ICLR的创办

ICLR是一种崭新的会议形式，号称“深度学习的顶级会议”。由Bengio与LeCun牵头创办创建，出发点就是希望能为深度学习提供一个专业化的交流平台。之所以成为炙手可热的无冕之王，并不只是因为创办者的能量光环，最重要的原因它是Open Review的评审机制，任何论文都会公开姓名等信息，任何学者都可或匿名或实名地评价论文，开启了公开透明的先河。自2013成立以来，已发出很多高质量文章，可以说代表了深度学习最前沿的研究。这个会议，很Bengio！