分享

一位90后统计学硕士的深悟与真思:统计其实有门道!人工智能还能这样学!(精荐40本图书 20个视频资...

 培根阅读 2017-11-02


嘉宾介绍

素质版主

经管之家论坛ID:我的素质低。是经管之家十分资深且极具人气的超级版主,统计学硕士,也是一枚才华横溢、灵气四射、思维开阔的90后,拥有与其论坛ID“我的素质低”完全相反的“素质”。他曾获得全国大学生统计建模大赛一等奖,痴迷于计量统计,热爱数据分析,矢志成为数据大侠,对于计量统计专业有着扎实的专业基础和长期的持续跟踪。同时,亦对思考的技术、互联网与大数据、代码编写、人工智能、算法等领域有着很强的领悟力。他的第一份工作是目前最火热的AI算法工程师,由此也积累了从经济人转向AI算法工程师的宝贵经验和历程。


他喜欢乔布斯,自我描述“Stay foolish,stay hungry!”。除对统计专业有浓厚而深切的爱恋外,闲来没事还会舞文弄墨,文字技巧娴熟,文章独具一帜,个化化标签十足。常在论坛游走,以“素质出品”、“ONLY ONE”系列为名,面世了很多数据汇总、统计理论、计量学习、资源梳整等方面的优秀学习专题。总的来说一句话:有才、有趣、有意思!

问1:欢迎素质来到《经管人》专访栏目!作为一名长期活跃并驻扎在论坛的资深版主,您曾为大家分享了包括计量经济学、统计学、数据搜集与整理、机器学习在内的许多优质的资源,在这些领域也有着长期的跟踪和积累。从本科到硕士阶段,您都在统计专业浸泡着。首先能否为大家分享下作为新手,计量统计学科如何入门呢?能否为大家推荐一些比较好的计量与统计领域的经典图书、教材和文献材料,并帮助大家做一个简要的点评和梳理?在本领域您都跟踪了哪些大牛呢,能否也为大家介绍一下?以及学习统计学方面,您认为有哪些优秀的网络资源也是值得关注的呢?

答:感谢您的提问。首先,我认为无论计量还是统计都是帮助学习、科研的工具学科,需要在不同的使用场景中加以运用才能逐渐融会贯通。我的计量统计学习路径可能跟很多科班出身的不太一样,相比于将书本中的工具套用在实际场景中,个人比较倾向于先了解这个方法会出现在哪些应用场景里,再结合课本上的理论知识,进一步研究如何应对新场景的要求,判断理论上是否可行。也就是:工具书找方法的场景 + 理论书学方法的本质。具体来说,1)在学多元回归分析,我会先去搜集用SPSS软件实现的相关书籍,选择了张文彤老师的书籍《张文彤SPSS初中级教程》《张文彤SPSS高级教程》等。


2)在学时间序列分析的时候,会去找EVIEWS软件的书籍,张晓峒老师的《计量经济学软件EViews使用指南》。


3)在学面板数据分析的时候,EVIEWS和STATA的相关书籍,陈强老师的《高级计量经济学及STATA应用》


4)在学机器学习相关的内容的时候,会去找R语言软件的书籍,吴喜之老师《复杂数据统计方法——基于R的应用》等等


工具类书籍有一个好处,就是提供给我们诸多的案例与算法示例,跟着工具书走一遍,就相当于一道证明题跟着书籍证明了一遍,在流程中掌握更多细节

另外,网络学习资源丰富,这里可以给大家推荐一些,经管之家是一个学习统计计量的好去处,很多人会在其中交流自己的心得以及疑问,很多坛友也都见解独到,让人耳目一新,有利于拓展思路。还有一些网站也比较有特色,小木虫经济学家科学网等,预测者网有比较多的股市数据(日、周、月、年交易数据)给出的指标还是挺全面的。中文互联网数据资讯中心有比较多的当下热门的网络资讯信息与报告,还有一些大城市除了统计局还有自己的数据服务网,譬如上海市政府数据服务网

问2:对于许多做实证研究的人来说,计量与统计软件的掌握能力至关重要,能否结合学术期刊的投稿与写作,以及科研工作本身,为大家分享一下如何在论文写作中快速提高计量统计水平呢?如果一个人的计量统计是零基础,那么在准备CSSCI等期刊的投稿时,应该如何入手并规划学习路径呢?

答:曾经,在经管之家有三个帖子刷新了我的计量观,了解到光明学术下计量实证的“潜规则”。所以,在这介绍的是“黑科技”,”正义凛然”的看客请绕行。


这里我只摘录个别亮点,帖子发于7年前,其中的一些方法难免有点过时,但是内容绝对震撼


案例背景


当初一个舍友来自西部地区,从没学过计量(OLS都没学过)。但毕业论文老板要求用数据说话,发愁。我于心不忍,告诉她:我每天晚上自习回来,睡觉前花10分钟给你讲解一下STATA的操作和出来的各项结果意义。第一天,我讲了OLS。画了一张散点图和一根直线,用了1分钟就让她完全理解了OLS的精髓,这是用来干啥的。后面9分钟讲解了STATA的操作和OLS的各种变种。结果只一个星期,讲完五种方法(下面会介绍),她信心大增。后来一下子发了好几篇CSSCI,计量做的天花乱坠,让人误以为是一个大师。毕业论文也顺利通过。


简单回归:


有人会问:简单回归会不会太简单?我只能说你真逗。STATA里面那么多选项,你加就是了。什么异方差、什么序列相关,一大堆尽管加。如果你实在无法确定是否有异方差和序列相关,那就把选项都加上。反正如果没有异方差,结果是一样的。有异方差,软件就自动给你纠正了。这不很爽嘛。如果样本太少,你还能加一个选项:bootstrap来估计方差。你看爽不爽!bootstrap就是自己把脚抬起来扛在肩上走路,就这么牛。


GMM:


GMM其实是一个没有用的忽悠,例如估计动态面板的diffGMM,其关键思想是当你找不到工具变量时,用滞后项来做工具变量。结果你会发现令人崩溃的情况:不同滞后变量的阶数,严重影响你的结果,更令人崩溃的是,一些判断估计结果优劣的指标会失灵。


一些口诀:


1.一定得选最复杂的计量方法,用别人无法获得的数据,写出能让人明白但看不懂的论文。


2.控制变量直接放你所能想到的,起码也得五六个。


3.什么序列相关呀,异方差呀,bootstrap呀,能加上的全给他加上。


4.论文开头有复杂新奇的关键词,致谢里都是学界名人。


5.字里行间都带脚注,引用全是英文文献,特专业的那种,


6.读者读到这里,甭管他有没有看懂,都得跟人家说一声“我的方法来自ECONOMETRICA”,一口专业的计量术语,倍儿有面子。


参考链接:


计量论文写作和发表的黑客教程1:让初学者瞬间开窍 — PDF版本

(http://bbs./thread-988937-1-1.html)


所以,也不必觉得计量很神秘、很困难,上手试一试,也许就有惊喜。

问3:市面上的计量和统计软件可谓十分多,能否结合您的学习旅途和习得的经验,为大家做一个系统的梳理呢?包括各类软件的适用性、优缺点等等?

计量统计的软件很多,不同软件都有自己的侧重点和所长,我们可以根据实际情况灵活使用:


(1)问卷、多元回归分析-----SPSS大家都知道是市场调查专用,这里简单介绍一下最新版本的spss25.0,新加了高级统计模块中贝叶斯统计执行新的贝叶斯统计函数,包括回归、方差分析和t检验。 新图表模板,可实现word等微软家族中编辑,这个新功能,通俗的说,就是SPSS输出的图表,你可以不用在原始的输出界面进行编辑修改,可以直接保存到word等里面,再进行修改。将高级统计分析扩展到混合、genlin混合、GLM和UNIANOVA, 变得更加精致。



(2)结构方程与路径分析------AMOS,主要是用于对结构方程模型(SEM)的建立和检验,不过也有使用liserl和mplus做SEM的,从使用来看,继承了IBM的一贯流程化风格,比较容易上手,一些流程都是拖拽式的,潜变量与结构变量之间的连接比较规范,验证性分析必备。



(3)金融方向的挖掘与分析------SAS,银行、券商的最爱,因为比较安全,有商业保障,比较主流


(4)时间序列与面板------eviews和stata,eviews特别是新版本有很多高端的时序模型,分位数回归、门限回归、面板协整、马尔科夫转换回归、结构突变点检验、指数平滑状态空间模型、Heckman选择模型,且x12、x11等季节调整模型也很多,总之时序eviews能做的很多,而且每年都在更新新的模组,比较适合经济学者入门,关于以上新版本的更新可以看帖子:[Eviews] 〖素质笔记〗Eviews 8新功能之四——Heckman选择模型(http://bbs./thread-3880845-1-1.html)


stata在高级的面板模型上走的很多,面板向量自回归等,还可以做Logit、多元Logit、双边随机边界分析 (two-tier StochasticFrontier Analysis)、异质性随机边界分析、面板VAR模型、GMM、倾向得分匹配分析、非线性最小二乘法(NLOLS)等,主要是需要编写代码,所以可以自己组合一些方式方法出来,比较灵活,适合高阶晋级的经济学者


(5)数据挖掘万灵药------界面化的spss modeler、matlab、R、python,R+python 在机器学习、人工智能到来之际,已经火的一塌涂地了,spss modeler相对来说,就不显得那么有光芒了。但是,对于机器学习入门来说,spss modeler绝对很好掌握,跟spss一样流程式,下面是一些流程组件,可以任意拼接,比较符合数据分析的流程:数据预处理-建模-展示。


(6)数据可视化/拖拽式界面------tableau、JMP(SAS旗下),都是比较适合数据可视化的软件,tableau可谓大名鼎鼎,炫技术的神器,经常有tableau比赛,而且社区经常有聚会以及巡回演讲,可以目睹可视化届的黑科技,线上做的图可以移动端查看:



JMP也有类似的功能,JMP是SAS推出的一种交互式可视化统计发现软件系列, 这本书《JMP 统计分析教程 杨重法(著)》里面有比较详细地介绍,拖拽式的界面比较容易理解与让分析师进行任意数据的组合、交叉。



(7)还有一些数值运算小众的------gauss矩阵语言软件包, 它可以十分方便地编制矩阵计算程序、winbugs(贝叶斯分析)

问4:作为一名统计学科班出身的经管人,您毕业后的第一份工作是AI算法工程师-----AI目前是整个时代的风口,您的成长路径也可以说是“非典型”的,能否为大家分享一下经济人转行做AI的一些历程与走来的想法?从文本挖掘、图像目标识别到深度学习、算法等方面,您都有哪些心得和感受呢?

答:对我来说,研三是一个转折期,因为不打算继续读博,计量统计的知识出来做数据分析工作还差了一点,所以不得不补一些机器学习、文本挖掘方面的知识补着补着发现,深度学习这阵风刮来了,赶紧抱紧大腿又恶补了很久,差不多恶补了一年,总算在毕业的时候留任在实习的公司,正式从经济学人成功转型码农(/掩脸)。毕竟码农好就业,这点...(/叹气)


深度学习外来入侵了很多领域,打破了很多领域的研究上限,让大家看到了无限可能性,对于我们经济学来说,时间序列预测较多模型都是以线性为主,非线性的、针对金融的模型复杂度都较高,理论较为繁杂。而深度学习用一个黑箱子把这些复杂都藏起来,让本来就复杂的现象交给复杂的系统去处理。坏处是,可解释性很差(不像回归还有系数T检验、R方、F值检验),好处是逼近真实,预测准确率极高。本着知己知彼的心态,不自己了解一下入侵者,肯定不知道如何应对。



人工智能、机器学习、深度学习三者的关系就如图所示这样,人工智能范围很大,囊括的内容也很多,把人工智能比作一个人,深度学习则是这人的大脑。


深度学习模型的一些基本架构相对国人来说,绝对没的说,很好理解,学过高数的基本都能够理解反向传播的机制,也就知道模型是在干什么,困扰实践的更多会是如何通过软件来实现,近几年属于深度学习爆发的阶段,之前比较麻烦的一点就是,算法更新迭代速度快到超乎想象,刚刚掌握的新技术,说不定几周内就更新了一个版本,算法里面调用的函数连名字都换掉了,各类教程刚刚写出来马上又过时,所以入门难。但经过了前期的爆发式增长,现在很多编程算法函数已经趋于稳定,也就非常适合入门。


当然, 一般来说,经管专业对深度学习的理论理解绝对没问题,网上教学资源丰富,听着老师的讲解以及一些教材绝对能听懂,但是呢,动手写代码对经管人来说就比较困难了,而且一般经管都是用R,python用的倒不多编码能力这点,就跟学语言一样,一定要多加练习才能学会,网上能够找到一些教程,用jupyter notebook或R markdown写的内容,可读性都比较强,一段代码一段显示,让你了解每个函数的输入、输出、参数设置等,所以勤加练习编码这关还是可以顺利通过的。


深度学习一些框架对新手来说比较麻烦,这边推荐可以看看腾讯开发者实验室以及IBM的公益项目:supervessel,里面已经装好了环境可以直接测试。

问5:随着大数据、云计算等技术的日趋成熟,人工智能的发展也在不断突破,生态也逐步形成------我们注意到在美股市场上,以英伟达、谷歌、FACEBOOK为代表的一批企业都在加速在AI领域的布局,其股价也屡屡创出新高。技术的进步与融合,让各个学科的发展都滚滚向前,新的概念频出,新的趋势也不断确立。


您如何看待经济学与人工智能的关系?之前与您的交流中,您提及“计量统计的未来或许会涉及到如何接地气、非结构化数据的整合“,能否就这个见解进一步分享和展开呢?

答:深度学习会像计量一样,作为一种强有力的工具来帮助经济人了解经济现象,未来的实证可能会有更多的深度学习方式来进行说理。对于经济学的影响,我认为主要来自于两个方面: 非结构化数据的解读能力+解读复杂现象的模型 。


非结构化数据的解读能力。深度学习拓宽了可分析的领域,常规来看,之前经济期刊实证发文,较多就是宏观经济数据、微观调查数据,而深度学习作为可以解读非结构化数据的方式,可以更好地全面了解现象的发生。


譬如图像、文本、声音、视频等一些非结构化的数据经过提取都可以成为一些变量加入到整个模型之中。其中舆情方面的研究都较为有趣,比如twitter中的舆情预测股价、预测总统选举、预测用户情绪等。


举一个现在流行的模型——卷积神经网络,CNN目前用来看图,确切来说,用来解读数字矩阵,因为一张图片一般解读成RGB的三维数组矩阵,把非结构的大小变成数字,而且还是矩阵,那就有的数学家玩儿了~矩阵数值可以理解为像素点,数值 1 是白色,256 是最深的绿色。在算法眼里图像张下面这样:



卷积层就有点像是统计里综合评价中的各个指标加权得到得分,只不过现在是在一个3*3的小区域里面算权重得分,如下:



具体的解读比较浅显的解读素质推荐一篇用excel来解读卷积的长文:《机器视角:长文揭秘图像处理和卷积神经网络架构》。


提供了解读复杂现象的模型,物理学家,诺奖得主Philip Anderson的一句普世名言:more is different!线性模型在宏观趋势上的解读能力很强,但是预测微观现象的能力要逊色很多,而深度学习在高维数据中抽丝剥茧,降维关键信息,凭借强大的计算资源,可以拥有成千上万个参数,学术界试图模仿人脑的“神经网络“建立一个类似的学习策略,也取名为”神经网络“,由于到目前,还无法知道人脑工作的复杂性,所以这两个神经网络也只能是形似而已。但这在常规经济学模型来看,已经很可怕,就像大脑中神经传输、触发一样。


总的来说,深度学习可以很好地控制预测成本,可以提供给经济学人更多非结构化数据的解读,以及强有力的应付复杂现象的模型。


一些算法的学习与实践,素质还是跟之前学习计量一样,从工具入手再去回顾理论,那么深度学习一般工具的载体就是python或R,python的入门纸质书很多,网上资源可以看廖雪峰python教程,一些packages入门可以直接看packages的介绍文档:TensorFlow 官方文档中文版、keras官方文档中文版、Mxnet文档等。


AI社区同样非常活跃,很多高质量的论文都会在一些社群里面讨论,微信群有:PaperWeekly微信群、将门微信群;公众号有:机器之心、智能立方、Paperweekly、哈工大scir、将门创投、炼丹实验室、机器学习研究会、AI科技评论、全球人工智能、深度学习大讲堂;知乎专栏有:炼丹实验室、机器之心、超智能体、PaperWeekly、深度学习:从入门到放弃、智能单元、深度学习大讲堂等。当然了,统计之都也有非常多的接地气的文献:



Editor: 从统计学角度来看深度学习(1):递归广义线性模型

https:///2015/05/a-statistical-view-of-deep-learning-i-recursive-glms

Editor: 从统计学角度来看深度学习(2):自动编码器和自由能

https:///2015/05/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy

Editor: 从统计学角度来看深度学习(3):记忆和核方法

https:///2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels

问6:近年来,经管领域的计量、统计已经快速与AI融合起来,您觉得AI所涉及的知识结构和知识全景是怎样的呢?或者说,AI大圈子背后全专业领域的汇合是一幅怎样的全貌呢?AI如何做预测与计量预测?AI做原因分析与传统统计做原因分析有哪些异同呢?

答:深度学习与AI现在国内非常热,从各大顶级期刊来看华人稿子很多,仰赖全民从小数理化,基本数理知识扎实,入门学习比较容易。而且,受线上教育的红利,有非常多的顶级、免费的公开课可以供大家学习,让名校的知识教育流传开来,比如吴恩达的deeplearning.ai,这个在网易云课堂有中文字幕版的(http://mooc.study.163.com/smartSpec/detail/1001319001.htm )。经典的cs231n,官网链接(http://cs231n./ ),cs231n是有笔记的(https://cs231n./ ),当然,知乎上的一些大神对这个笔记进行了翻译---链接(https://zhuanlan.zhihu.com/p/21930884 )。李飞飞老师的网易云课堂的公开课。


对于深度学习与AI整体框架来说,网上盗图一张,供大家参考:



上图比较笼统(来源文献:《人工智能产品经理的新起点》),能掌握一部分已然很不错,一些基本的知识点有:


基本模型结构卷积层、激活函数、池化层、归一化层、softmax,参数初始化gaussian/xavier/bilinear,激活函数:sigmoid、tanh、relu、selu等,损失函数:log loss/hinge loss/zero-one loss等,优化方式:sgd/adagred/adam等,各种训练技巧:dropout/batch normalization /正则/attention等,一些理论知识点:梯度爆炸、梯度弥散、调参、微调等,一看这么多专业名词瞬间蒙X了,别着急,其实... 这也只是刚刚入门...。


深度学习做预测与计量做预测模式有很多相似之处,首先需要喂给模型一些数据,然后模型学习到这些数据的模式,再进行相关预测。不同之处在于处理非线性的能力,以RNN(循环神经网络)为例:



RNN中,x是输入,y是输出,h可以对序列形的数据提取特征,接着再转换为输出。


外来入侵的深度学习解释性不强代表着其理论根基还不透彻,特别是统计学中变量有两类连续变量和离散变量,连续时间变量的理论基础是其服从某些分布,从而可以开展相关的分析,但RNN给出了连续时间变量不一样的解读方式,即可以看成一个在时间上传递的神经网络,它的深度是时间的长度,这种对时间的解读与常规线性回归解读方式差异很大,极有意思。

问7:从一位经管人到AI工程师,其实我们相信底层的知识的迁移,以及对工作岗位的快速学习和适应,都十分重要。在这个过程中,能否和我们分享一下,您从AI入门到开始AI项目的历程呢?您觉得作为一个职业新人,应该如何去快速适应自己的新工作呢?工作以来,最大的感受是什么?

答:来看一张AI界大牛整理的一张AI产品:



也就是现在AI并不是一个算法、一个模型、一个专利技术、一个人能解决的,AI需要整体解决方案,所以需要很多专业内容汇聚在一起来共同解决同一问题。新的行业的诞生,必然也会有非常多新的岗位添加进来,涌现出一些比较有意思的岗位:机器人暴力评估师、训机师(雇佣诗人、喜剧演员帮助机器人设计对话)等,从上图所调用的资源与能够达到的效果,AI产品可以很快地打破垂直领域一些产品,以一个“颠覆者”的姿态,譬如翻译员、司机(虽然无人驾驶还很遥远...)、客服等。当然,这里也可以开个脑洞,解放生产力之后,让大家有更多闲置时间,那么娱乐、游戏等一些偏休闲的方向也会迅速崛起。


深度学习、AI是一个崭新的方向,做AI项目需要调动的资源比想象中要多得多,AI产品需要有很多高质量的标注数据,硬件资源也尤其重要,比如计算机一定需要质量比较高的GPU,而高质量GPU通常价格不菲。工程师是AI产品的灵魂,AI就像学舌鹦鹉,你教她说什么,她只会说你教的,而且你一下子教她很多,她有很大概率一句都学不会,所以是一个互相适应、互相学习的过程。还有,模型需要大量的训练数据,才能展现出神奇的效果,但现实生活中往往会遇到小样本问题,此时深度学习方法无法入手;有些领域,采用传统的简单的机器学习方法,可以很好地解决了,没必要非得用复杂的深度学习方法,千万不要掉进模型怪圈。


作为一枚初入职场的小白,特别还是AI方向的,需要花更多时间去让自己充电,AI所需的知识是方方面面,她把很多领域的知识融合进来,所以为了了解她,需要去不断学习、理解、磨合、适应,其发展也是指数级,可能每周都有新的方式方法超越,成为state-of-the-art,要有“Stay foolish,stay hungry”的精神!


问8:在刚才的采访中,我们提了许多问题,最后一个问题,我们希望是开放式的,也希望您能尽情发挥。在访谈的最后,能否就您擅长的领域或感兴趣的领域,为我们分享一段精彩的评论或观点或寄语呢? 

答:之前了解过量化大师西蒙斯的团队结构,他从来不雇佣经济学家及华尔街专业人士,而却将计算机科学家、物理学家以及天文学家都纳入团队,甚至雇用了一些语音学家。他认为股票市场就是一个数学难题,与实体经济的构造组成没有关系。他曾说:“我们不雇用数理逻辑不好的学生。”


受他这种天马行空的研究模式启发,我认为经济现象也并非只能从调查、年鉴、数据库中去探索蛛丝马迹,还可以从很多非结构化的内容入手研究。而深度学习对非结构化数据的解读可以极大帮助经济学人去理解经济现象,拥抱更多元、全领域、多模态的分析模式。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多