机器学习：推荐6篇文献

晶晶晶晶323 2020-07-25

展开全文

1.高华川：《机器学习在经济学中的应用》，《经济纵横》2019年第24期。

摘要：随者大数据时代的到来，机器学习在经济学中的应用越来越广泛。本文梳理了机器学习的含义、机器学习与计量经济学模型的区别以及机器学习在宏观经济预测以及因果推断中的应用。

文章结构安排

一、什么是机器学习

（一）机器学习的含义

二、机器学习与普通宏观经济预测模型的区别

（一）机器学习并不涉及识别问题

（二）机器学习将经验分析视为估计和比较多个备选模型的“算法”

三、机器学习在宏观经济预测中的应用

（一）机器学习在宏观经济预测中的难点

（二）机器学习在宏观经济实时预测中的应用

（三）机器学习在政策评估中的应用

1. 平均处理效应

2. 异质性处理效应与最优政策

2.王芳、王宣艺、陈硕：《经济学研究中的机器学习：回顾与展望》，《数量经济技术经济研究》2020年第4期。

摘要：研究目标：随着数据的可得和计算机的发展，机器学习技术在经济学领域的应用发展非常迅速。本文旨在系统介绍机器学习在经济学种的应用。研究方法：简单介绍机器学习的定义后，本文将从数据生成、预测以及因果识别（DID、RD和IV）三个方面详细介绍机器学习在经济学中的应用。研究发现：局限于经济学因果识别方法的成熟及样本大小限制，本文认为机器学习虽然拓展了研究的边界，但并不会颠覆社会科学研究范式。研究创新：将机器学习的最新应用进行综述。研究价值：对机器学习在经济学种的已有应用进行分类归纳，并对未来研究进行展望。此外，本文也从学界不平等及可复制等方面讨论了该技术在应用过程中可能带来的问题。

文章结构安排

引言

一、关于数据生成

二、关于预测

1. OLS与Ridge在预测上的差异。

2. 用机器学习预测在文献中的应用

三、关于因果识别

1. 因果关系与反事实

2. 双重差分方法

3. 断点回归方法

4. 工具变量方法

四、展望及结论

3.陈云松、吴晓刚、胡安宁、贺光烨、句国栋：《社会预测：基于机器学习的研究新范式》，《社会学研究》2020年第3期。

摘要：社会学是对社会行动提供诠释和反事实因果解释的科学。社会学定量研究的因果性解释，必须能够作为预测社会现象的基础。收到数据和算力限制，多年来社会学定量研究的主要取径是通过统计检验实现关联和因果分析，而无力进行预测。本文对“社会预测”这一概念的历史脉络进行梳理，阐述了通过机器学习方法实现社会预测的科学原理和当代路径，并对社会预测进行了再定义。在此基础上，本文进一步探讨了社会预测的学术价值、治理价值和话语价值，并阐述了其作为定量社会研究前沿的范式突破意义。我们认为，利用机器学习实现社会预测，是中国社会学特别是计算社会学引领国际前沿的重要契机，对于加快构建中国特色哲学社会科学具有重要意义。

文章结构安排

一、导言

二、社会预测的历史脉络

（一）预测的起落：早期概念和瓶颈

（二）预测的重提：关联、因果和预测

三、社会预测的实现

（一）机器学习的概念

（二）监督学习的预测原理

（三）社会预测的再定义：社会计算和机器学习视野

四、社会越策的学科价值

（一）社会预测的学术价值

（二）社会预测的治理价值

（三）社会预测的话语价值

五、社会预测的范式意义

六、讨论和结语

4.罗家德、刘济帆、杨鲲昊、傅晓明：《论社会学理论导引的大数据研究——大数据、理论与预测模型的三角对话》，《社会学研究》2018年5期。

摘要：计算社会科学把社会科学理论以及研究方法与大数据分析熔为一炉，一方面为大数据分析开启了很多新议题，理论指导下的定性、定量调查也可以为数据挖掘的结果提供校准的扎根真相；另一方面，在大数据挖掘的结果中可以找到建构理论的线索，提供验证理论的资料，进而指导预测模型的建构，推论并解释更多的现象。本文以中国风险投资产业网络数据为例，展示了数据挖掘、社会学理论与预测模型间的三角对话，进一步呈现了以理论导引的大数据分析的方法论论。

文章结构安排

一、计算社会科学方法论

二、大数据对理论发展的影响

三、理论指导的扎根真相

四、数据挖掘与理论发展

五、理论指导下的动态模型

六、总结：数据挖掘、理论与预测模型三者的互动

5.刘涛雄、徐晓飞：《互联网搜索行为能帮助我们预测宏观经济吗？》，《经济研究》2015年第12期。

摘要：在大数据被广泛应用的今天，能否以及如何利用大数据对宏观经济进行预测成为经济学研究的一个新领域，应用大数据对宏观经济总量进行预测迄今还鲜有研究。在宏观经济分析中，两种类型数据可以被应用，即结构化数据和非结构化信息。政府统计指标属于结构化数据，而互联网搜索行为则属于非结构化信息。互联网搜索行为是在线大数据中较为代表型的信息，本文将探索互联网搜索行为能否帮助我们对宏观经济进行预测，分析利用结构化数据和非结构化信息的可行方法。本研究使用6种模型对宏观经济总量进行预测。通过不同模型的比较，最终选择最优预测模型。研究表明，互联网搜索行为可以帮助预测宏观经济，但必须依赖适当模型选择方法。搜索行为数据不是对现有统计数据的替代，而是补充。选择结构化数据与非结构化信息变量的正确方法是“两步法”。首先，仅使用政府统计信息选择初步最优预测模型；其次，将互联网搜索行为加入选择的模型红，最终确定最优模型。

文章结构安排

一、引言

二、模型构建

（一）基本模型

（二）降维与模型挑选

三、数据说明

四、计量结果及分析

（一）五种模型的计量结果

（二）初步结论

五、比较分析

（一）“一步法”与“两步法”的比较

（二）不同时间区间的互联网搜索行为预测能力比较

（三）其他宏观经济指标的预测

（四）“两步法”的科学机理探讨

六、结论与启示

6.马黎珺、伊志宏、张澈：《廉价交谈还是言之有据？——分析师报告文本的信息含量研究》，《管理世界》2019年第7期。

摘要：本文通过机器学习对2009-2015年的分析师报告进行了文本分析，以检验分析师报告的文字内容是否传递增量信息。结果表明，在控制了定量信息的影响之后，分析师报告中前瞻性语句的情感与报告发布后的累计超额收益显著正相关，说明前瞻性语句向市场传递了增量信息；这一关系在企业信息透明度较低、分析师报告较高以及投资者信息处理能力较强时更加显著，说明文字信息发挥市场影响力需要一定的作用条件。同时，当文字信息与定量信息能够相互佐证时，市场对分析师报告中各类信息的反应会显著强化。在进一步研究中，本文发现前瞻性语句成功预测了企业未来的基本面变化，说明分析师报告中的文字并非“廉价交谈”而是“言之有据”。最后，本文还探讨了影响前瞻性语句含量的因素。本文的结论有助于打开分析师的“黑箱”，揭示了分析师在改善我国资本市场效率、引导价值投资等方面所发挥的作用。

文章结构安排

一、引言

二、文献回顾和假说提出

（一）前瞻性语句的市场反应

（二）分析师报告信息质量的影响

（三）企业信息透明度的影响

（四）投资者信息处理能力的影响

（五）定量和定性信息的交互作用

三、研究设计

（一）前瞻性语句的衡量方式

（二）实证模型

（三）数据和样本