【原】如何撰写经济学应用论文（上）

新用户68639482 2022-04-02

展开全文

如何撰写经济学应用论文

Marc F.Bellemare[1]

2020年9月7日

摘要：

如何写出好的学术论文？尽管许多经济学者本能地知道如何做到这一点，但很少有人花时间思考如何撰写好的研究论文，即使是最成功的经济学者也往往很难清楚地回答这个问题。其原因在于两：经济学家读的内容（what economists read）以及他们读的方式（how they read it）。本文的目的是告诉读者如何撰写最终能发表在同行评议期刊上的应用经济学论文。本文将尽可能详细地讨论论文的各组成部分，并以常规的研究项目中各部分呈现的顺序来编排。

关键词：应用经济学，应用微观经济学，方法论

JEL 分类号: A2, B4

“我相信，我们成为什么样的人，取决于我们的父亲在空闲的时刻教我们什么，当他们不想教我们的时候。我们是由一点点智慧组成的。”

— Umberto Eco（1988），Foucault’s Pendulum.

1引言

一部好电影会让你忘记你是正在看一部电影。同样，一篇好的研究论文会让你忘记你是正在读一篇研究论文。作者们介绍了他们所做的工作：他们问了自己什么问题，他们是如何回答的，他们是如何确保自己的答案是可靠的。总之，我们可以从他们的研究中学到一些东西，以用于指导政府或商业决策。

但正如一部好电影让你沉浸在它创造的世界中，让你忘记制作过程中使用的各种主题和技巧一样，一篇好的研究论文也会让你忘记它的整体结构以及作者使用的各种修辞手段。

你如何写一篇好的研究论文？根据我的经验，大多数研究经济学家花在思考这个问题上的时间太少，即使是最成功的经济学家也很难清晰地回答同一个问题。

这既与经济学家的阅读内容有关，也与他们的阅读方式有关。

关于经济学家所阅读的内容，大多数研究生课程（如行为、发展、产业组织、劳动）的教学大纲通常包含阅读所研究领域的优秀论文。这些论文影响了该领域研究人员的思维方式以及他们对该主题的了解。例如，发展经济学课程的教学大纲几乎肯定会将Foster and Rosenzweig（1995）和Suri（2011）的文章包含在其技术采用主题下的阅读清单。因为，在该领域中，这两篇文章被广泛认为是最好的文献之一。

这主要适用于低年级的读者（因为高级别的学者可能在审稿时接触到很多质量不高的文章），但只阅读最好的论文也是一把双刃剑。平心而论，阅读那些来自于我们同行们关注话题的论文时，我们会获得最大的收获。同时，这些论文往往是质量最高的，即在某一特定话题中最接近完美的论文^{^[2]}。但是，如果一个人所读的都是完美的论文，那么他就很难了解好论文是怎么形成的。例如，再拿电影举例，如果你所看的都是英国电影协会（British film Institute，BFI）有史以来最伟大的50部电影名单上的电影，而你从未看过任何糟糕（甚至是一般）的电影，那么你将很难发现到底是什么让这些电影跻身BFI前50名。

关于经济学家的阅读方式，大多数研究生课程的教学大纲经常列出大量的文章，从而使研究生迅速掌握出一种技能，即Mortimer Adler在其著作How to Read a Book中谈到的“检视阅读”（inspectional reading）。在阅读学术论文时，检查阅读包括阅读引言、查看方法和结果，以及（可能）在阅读的下一篇文章之前阅读结论。以这种方式阅读论文可以帮助一个人了解某一主题的内容，但这并不是学习如何撰写好论文的秘诀^{^[3]}。

当经济学家知道如何写出一篇好的研究论文时，他们通常会以非结构化、无意识的方式收集这些信息，通常是从顾问、资深同事和合作者的闲聊中收集的。换句话说，正如本文开篇Umberto Eco所说的一样：他们“在偶然的时刻……通过一点点知识”学到了这一点，而这些顾问、同事和合著者并没有试图教他们。

因此，本文的目标是教会读者如何撰写最终将在同行评议期刊上发表的应用经济学论文[4]。为了做到这一点，研究论文的各个组成部分将尽可能详细地讨论，文章的顺序大致以各组成部分在实际研究工作中的顺序来编排[5]。

本文的其余部分组织如下。第2节列出并讨论了一篇典型的应用经济学论文结构。第3节解释了如何呈现应用论文的理论框架，记住理论经济学家很少读应用论文。接下来是论文中真正应用的部分：第4节解释如何呈现数据和描述性统计，第5节解释如何呈现实证框架，第6节解释如何讨论实证结果，包括其局限性。第7节解释了如何写出正确的结论。因为只有当作者弄清楚自己研究的结果是什么以及它们的意思后才能完成标题、摘要和引言的写作，所以第8节才解释了如何选择一个好的标题、写一个好的引言和摘要。第9节讨论了文献综述和背景部分（并非是论文中必须有的部分）。第10节讨论了有关发表的事宜。第11节是总结。

2结构

在创作任何类型的作品之前，了解这些作品的典型结构是什么样的，并写下这种结构的粗略草图是有帮助的。从最抽象的意义上说，典型的经济学论文（无论是否是应用论文）的结构如下：

1.标题

2.摘要

3.引言

4. ……

5.总结和结束语

6.参考文献

根据你写的论文的类型，第四部分将会有所改变。由于本文主要探讨应用论文的写作，所以上面的结构通常会被修改为如下结构：

1.标题

2.摘要

3.引言

4.理论框架

5.数据和描述性统计

6.经验框架

7.结果和讨论

8.摘要和结束语

9.参考文献

10.附录

该结构并不是一成不变的。有些作者会调换第5部分和第6部分的位置，从而使实证框架部分位于数据和描述性统计部分之前。类似地，一篇研究常规问题的论文（例如，更强的财产权对农业生产力的影响）可能根本不需要一个理论框架，因为这个问题背后的理论是众所周知的，而且还是教科书上的东西。或者，在引言之后会有一部分介绍重要的研究背景，而这部分既不适合放在引言，也不适合放在描述性统计部分。

虽然有些论文可能需要对上述结构进行大幅度调整，但是熟悉常规的结构还是有帮助的。在这种情况下，一个很好的类比就是：在爵士乐传奇人物John Coltrane制作 A Love Supreme（1965）（至高无上的爱，一部很前卫的作品）之前，他首先学会了Blue Train（1957）中波普爵士乐结构（较为僵化和传统）。

这对应用经济学家意味着什么？这意味着在你打破常规之前，必须学会它们。因此，在考虑写一篇一般读者几乎认不出的结构的论文之前，一个应用经济学家应该确保已经写了足够多遵循以上结构的论文。换句话说，更有经验的研究人员才能做出结构上的改变，因为他们从读者那里积累了足够的善意，这允许他们稍作改变。

本文的其余部分将不遵循刚才给出的结构。虽然对我来说，写一篇论文，其后续章节的标题按照确切的结构顺序排列肯定会更容易，但事实证明，我们在论文中所展示的结构往往与我们实际工作的结构相差较大。

3理论框架

由于应用经济学的目标通常是回答这样的问题：“x影响y吗？”或者“如果x增加一个单位，y会改变多少个单位？”，因此经济学中的大多数应用工作都是从某种变化理论（theory of change）的思想开始的。

虽然许多影响评估报告会包含一项具体措施是否以及如何影响无数结果，但最好的研究论文往往侧重于单个问题（例如，“拥有土地所有权如何影响农业生产力？”）或特定问题背后的影响机制（例如，“土地所有权提高农业生产力，其原因是土地所有权允许土地所有者将其土地用作抵押品吗？”），因此，首先必须决定一篇特定文章将侧重于何种利益因果关系。换句话说，最好的应用经济学文章往往只关注一个问题，所以你几乎不可避免地不得不在剪裁室的地板上留下一些材料^{^[6]}。

那么，问题是如何将你的变化理论转化为应用经济学文章的适当理论框架。这里有两种可能的情况：你正在研究一个理论家已经研究过变化理论的问题，或者你正在研究一个理论家还没有研究过变化理论的问题。

在第一个场景中，有两个选项。第一种选择是在文章中包含一个理论框架，通过合并或改编他人的理论框架。尽管研究论文常常让人觉得必须在所有方面进行创新，但这种情况很少发生。尤其是应用论文，重要的是研究问题、实证策略或两者都是新颖的。在大多数情况下，使用别人的理论框架是完全可以的——前提是你清楚地说明你正在这样做。

一个密切相关的选择是调整别人的理论框架来满足你的需求——例如，通过合并一个额外的变量，或者通过做出额外的假设来满足你的应用需求。

在第二种情况下，当你在研究一个理论家还没有研究过变化理论的问题时，你必须清楚地陈述你的变化理论。在某些情况下，这可能需要一个正式的理论模型。在其他情况下，仅仅提出一个口头的概念框架就足够了^{^[7]}。在所有情况下，你的理论框架——无论是数学的还是口头的——都应该从基本元素开始，并做出必要的假设，以产生“X通过机制m引起y”的结果，不能多也不能少。

一个人可以写一整本关于如何写经济理论的书（有些人已经写过了；参见Thomson，2011)，因此除了以下内容之外，关于这个话题本文就不再多说了：写经济学理论模型是一种艺术形式，如果你在研究生阶段还没有学过如何写，也许最好与有过这种经历的人合作。在发表应用经济学文章时，最好是一个非正式的、不规范的概念框架，而不是一个糟糕的正式理论模型。

也就是说，即使你的工作论文包含了一个简明的理论模型，有时也会发生这样的情况：即审稿人或编辑会要求你在论文发表前删除你的理论模型，或者将该理论模型放在附录中。如果发生这种情况，要知道这是常见的，不要感觉被冒犯。从这个意义上说，在你的论文中有一个理论框架通常只是一个信号（in the Spence, 1973 sense），表明你知道自己在做什么。Job-Market Paper尤其如此，其除了要对现有研究做出贡献外，还应被用来展示作者各方面的能力。

4数据和描述性统计

在发展了你的变化理论之后，你大概正在寻找数据来检验理论。与编写正式理论模型一样，以下这些书描写了有关数据收集的注意事项（调查数据见Deaton，1997或Glewwe and Grosh，2000；随机对照试验见Gerber and Green，2012或Glennerster and Takavarasha，2013），因此本节将不讨论数据来自哪里，而是假设您有这些数据。本节将侧重于如何在应用经济学文章的正文中呈现数据。

数据和描述性统计部分回答了读者关于数据本身的所有问题。具体来说，一个好的数据和描述性统计部分需要首先讨论数据的来源，包括数据收集的时间，搜集人员，构成样本的观察数据是如何选择纳入的（即调查方法，或区域、社区、家庭、个人等是如何选择的），样本代表什么人群，目标样本量是多少以及如何确定样本量（例如，通过功率计算），实际样本量是多少，无答复率是多少，如果数据是纵向的，损耗率是多少，如何处理缺失值（例如，是否只是删除了观测值，或是否对某些值进行了插补，如果是，如何进行插补）。广义地说，这里提供的信息允许读者判断论文中所包含结果的外部有效性（有时也可以判断它们的内部有效性，当数据存在损失时就是如此），或者如何将这些结果用于样本外预测。

在介绍了这些基础知识之后，一个好的数据和描述性统计部分通过精确和简明地解释它们测量的东西以及它们测量的方法来介绍论文中使用的所有变量（所有变量都在论文中有用到）。例如，在发展中国家的许多农村地区，人们的收入来源多种多样。因此，如果“收入”包括在分析中，读者需要被告知收入来源是什么。

这可能看起来很乏味，但它包含了重要的信息（如果作为作者的你都觉得很乏味，你可以想象它对读者来说是什么感觉）。例如，农业发展文献中的一个古老问题，也是我做了相当多研究工作的一个话题：参与农业价值链（通过合约式农业，作为种植户）是否会让参与的家庭过得更好（参见Bellemare and Bloem，2018年的综述）。这通常是通过在家庭是否参与合约式农业的虚拟模型上回归家庭收入的度量（作为福利的代理变量）来评估的。然而，如果不知道家庭收入的组成部分是什么，就不可能知道它是否包括来自合约式农业（contract farming）的收入。当家庭收入包含合约式农业收入时，存在明显的反向因果关系问题。而当家庭收入不包含合约式农业收入时，反向因果关系问题要小得多。

好消息是，当人们获得用于收集数据的调查问卷时，提取出这些信息是相对容易的，而且几乎总是这样。此外，呈现这种信息的最好方法是创建变量描述表，其中每一行都是之后用于分析的变量，第一列给出该变量的名称（括号中是度量单位），第二列给出精确的度量。图1就是一个这样的表。这样可以通过简洁的方式呈现大量必要的信息，从而最大限度地减少读者的不满：那些想要了解数据的人可以阅读该表，而那些不想了解的人可以跳过表来关注变量名。

图1变量描述示例（Bellemare，2012）

在介绍了上述内容之后，现在是介绍和讨论描述性统计的时候了。虽然在过去仅仅展示平均值和标准差就已足够，但当处理变量为类别变量时，有必要展示平衡检验的结果。表中每一行都是用于分析的变量，平均值和标准差是以处理状态为条件显示的，其中通过报告组间均值差异的p值来评估各变量的均值是否在不同处理状态下有显著的不同。尽管教科书上的例子涉及两种处理状态——处理和控制——但越来越多的研究包括两种以上的处理组（treatment arms），因此任何有意义的平衡测试都必须报告每一组组间差异检验。对于两个处理组，这意味着三种情况，即处理组1与对照组，处理组2与对照组，和处理组1与处理组2。

利用经验数据，这种平衡测试是向读者展示随机化的操作是适当的。对于观察数据，我们不会期望数据是平衡的，做平衡测试的目的是评估数据的不平衡程度——这一想法来自相关的文献（Morgan and Winship，2015)。在处理组和对照组之间完全随机分配的情况下，小于10%统计显著水平的成对比较差异应少于10个，小于20%统计显著水平的成对比较差异应少于20个，小于1%统计显著水平的成对比较差异应少于100个。如果对比结果报告了太多系统性差异，那么在估计效果时，理想情况下应该在回归或匹配上下文匹配中控制相关协变量。

除了通常的平均数和标准差表以及一个或多个显示平衡测试结果的表之外，良好的数据和描述性统计部分还可以用于非参数地探索数据，其具体方法是：当相关变量连续时，显示相关变量的核密度估计（即至少包括处理和控制变量，但控制也可能是异质性处理效应来源的因素）；当相关变量是类别变量时，展示相关变量的直方图；或当处理变量和结果都是哑变量时，显示交叉表（即二乘二表）。

在编写数据和描述性统计部分时，应该避免几个重要的错误。第一个这样的错误是写出了一个平淡无奇的手段列举。如果性别变量仅被用为控制变量，那么陈述“37.4%的受访者是女性”就没有什么意义，因为读者可以自行查找；这里唯一值得讨论的变量通常是因变量和自变量以及任何用于识别的变量（例如，工具变量或驱动变量（forcing variable）），或任何真正重要的变量。通常，一个很好的经验法则是将描述性统计的讨论保持在几句话之内。

第二个这样的错误是在讨论数据和描述性统计时使用了过去式。上面的例子说明了“37.4%的受访者是女性”，而不是“37.4%的受访者过去是女性”。在使用英语进行科学交流时，使用现在时讨论数据或结果是更有效。正如应该避免使用被动语态一样，也应该避免使用过去时态，除非是在总结和结束语中。

最后，另一个错误是，呈现的数字要么因为太小而有太多的小数位（通常，三位小数就足够了，而且无论如何，总是可以通过缩放一个变量，使其大小与其他变量的大小相适应），要么在表格中呈现了难以解释的数字，如1.37e+8，或者任何读者不熟悉的单位（例如，如果需要，总是可以用几千或几十万来表示美元金额）。换句话说，即使在实际回归中，使用的是收入的对数，但描述性统计表也应该报告收入水平的平均值，而不是收入对数的平均值。

最后，尽管数据和描述性统计部分中的许多内容好像是无用的装腔作势，但是正如前面所说的那样，一个好的数据和描述性统计部分应该可以让读者对因果关系的符号和大小形成合理预期，并了解在给定的条件作用域中，这种关系可能如何变化。

5实证框架

在讨论数据并呈现描述性统计数据后，你通常会转向讨论你的实证框架，即你所使用的实证研究设计。

一个实证框架由两个相关的部分组成：（一）估计策略（即估计什么，如何估计，以及如何进行统计推断），和（二）识别策略（即什么样的数据特征允许做出因果陈述，或者如果这不可能，我们如何知道我们正在接近做出这样的陈述）。

5.1估计策略

估计策略通常包括为回答研究问题而估计的方程式。虽然精明的读者可以通过查看论文中的表格来回顾论文中的估计方程，但这并不总是可能的。无论如何，读者应该做的工作量应该保持在最低限度，因此提出待估算的方程式在很大程度上是简洁的。

理想情况下，这些方程将尽可能简约。虽然一个回归可能包括10到15个控制变量，但最好将所有这些都放入控制变量的向量X中。在一个估计框架中，什么样的变量值得在方程中显示出来？首先，因变量（y）、处理变量（D或T)、控制向量（X）、截取项（）和误差项（）应该一起包括在内。

最好遵循以下几个范式，顺序不分先后：

· 从最小（例如个人）到最大（例如区域），所有变量都应有适当的下标，通常标为等。

· 拉丁字母表示变量。希腊字母表示系数。

· 在估计策略部分中，如果同一个等式使用在了不同的情况下，那么系数也应该有不同的下标。换句话说，如果β被用来表示y对D的回归系数，那么它就不应该被再用来表示y对D和x的回归中的系数——这两个的意思并不相同，用来表示它们的符号也应该不同。最好给每个系数加上数字下标：在前一种情况下，D的系数将被表示为β，而在后一个情况中则是β₁。也可以在每个系数上加上字母下标，例如βr和βs可以分别表示同一系数在简约式（reduced-form）和结构式（structural-form）中的估计系数。

· 估计策略部分还应具体说明用什么方法来进行估计。我们通常对感兴趣，但可以用许多不同的方法来估计，如参数、半参数或非参数方法。当结果变量为哑变量时，读者需要知道是否使用了线性概率模型、probit或logit模型。在不明确的情况下，还需要指定估计量（例如，最小二乘、最大似然或广义矩量法）。

· 在介绍了可估计的方程之后，应该讨论相关的假设检验。在形如下列的回归式中

· 估计策略部分还需要讨论推断，即标准误差是否稳健以及如何稳健（如果是，对什么稳健；如果使用Huber-sandwich-White校正，仅仅说标准误差是稳健的是不够的，但有必要说它们对异方差是稳健的），它们是否以及如何被聚类（如果是，在什么水平上聚类以及为什么聚类；请参见Abadie et al.，2017），以及是否使用抽样权重来使样本更接近感兴趣的人群（如果是，它们是如何构造的；参见Solon et al.，2015）。

5.2识别策略

在呈现和讨论估计方程后，有必要讨论如何识别与因果关系判断有关的系数。

随着时间的推移，“识别”一词经历了几种含义(Lewbel，2019)。不管怎样，“识别”一词在当前的应用论文中经常指因果判断。什么是因果判断？它指的是：一个系数不仅仅反映了因变量y和一些的变量D之间的部分相关，而是反映了一种因果关系。

虽然一个无偏系数估计意味着因果关系的系数估计，但不能反过来这样说。事实上，在某些情况下，虽然人们知道一个系数是有偏的，但在统计上显著的系数估计仍然可以用来表示因果关系。

例如，假设变量D是连续且随机赋值的，同时你有结果变量y和控制向量X的数据。试想一下，受试者完全符合D，那么原则上你就可以估计平均处理效果（ATE）。但变量D的衡量是有误差的，即当输入数据D时，就会存在一定程度的误差^{^[8]}。在这种情况下，当被拒绝时，我们仍然可以说，我们发现了D对y的因果关系影响，并提示说，这种影响是偏向于零的（或者，我们可以说，我们估计了实际影响的绝对值的下限）。有时，即使变量D存在着系统性测量误差，还是可以这样说，因为在某些情况下，系统性测量误差会导致的估计值偏向于零，但这种情况要少见得多。

如果你足够幸运，即在你的处理变量中有实验性的变化，以及平行趋势检验表明处理组和对照组是随机分配的，你的识别策略部分可以很短，因为你通过随机分配实现了对因果关系的判断。换句话说，你可以估计Pearl（2009）所指的，即x对y的影响。

如果你的处理变量中有实验性的变化，但平行趋势检验表明处理组和对照组的观测值并不是随机分配的，你的识别策略部分也可以很短，因为你只需要解释如何通过添加控制变量，来纠正这种情况，但只是在某种程度上，因为当可观察到的不平衡时，不可观察到的也可能不平衡。

如果处理变量中没有实验性的变化，那么就有很多工作需要完成。为了简洁起见，本文不能也不会用观测数据对因果关系进行深入研究（如果想要阅读完整的介绍，请参见Morgan and Winship，2015）。然而，一个好的识别策略还是需要讨论一些必要的内容。

· 直观地解释为什么你的结果可以用来解释因果关系。实际上，这意味着你必须告诉你的读者，为什么你的结果可以做出比以往更准确的因果判断。

· 在最好的情况下，这是因为你有一个研究设计（例如，一个严格外生的工具变量，如彩票），其可以实现随机分配的作用（即随机分组）。在不太理想的情况下（例如，一个看似外生的工具变量；参见Conley et al.，2012），你需要解释为什么，即使你没有做出干净明确的因果关系判断，但你的结果是现有文献中最好的[9]。

· 依次讨论以下三种内生性问题的来源:反向因果、遗漏变量、测量误差，解释这些内生性问题在你的研究中是否非常关键，以及你是如何处理这些内生性问题的。如果这里的确有问题，请大胆承认它们，并解释它们对你的估计系数将带来什么样的偏差。不要谎称你的论文能做什么以及不能做什么！

· 做到这点后，还需要考虑另一个问题，即违反SUTVA（个体处理稳定性假设）。SUTVA的含义是如果你想研究对的影响，其中i表示单个个体，t表示时间，那么的值必须不能影响、或的值，即只能影响。然而SUTVA可能非常难满足。也就是说，人们可以经常检验是否违反了SUTVA假定；参见Burke et al.（2019）的论文，作者们很好地处理了违反SUTVA的问题。

· 由于这是极其重要的，因此在强调一次：如果你并没有发现因果关系，不要谎称你的论文能做什么以及不能做什么！编辑和审稿人更愿意处理那些作者坦率地承认其文章局限性的稿件，而不是那些作者试图欺骗读者的稿件。简单地说：前一种稿件比后一种稿件被接受的机会要大得多。

[1] Northrop Professor, Department of AppliedEconomics, and Director, Center for International Food and Agricultural Policy,University of Minnesota, 1994 Buford Avenue, Saint Paul, MN 55108, Web:http://www., Email: mbellema@umn.edu.

[2]也就是说，如果每个人都读同一篇论文，而没有读其他论文，一个不健康的群体思维动态（an unhealthygroup-think dynamic）就会在研究某一特定主题的学者中形成，这可能会导致多年的学术努力浪费在回答错误的问题上，或试图用错误的方法来回答问题。

[3]了解是成功的一半，因此了解许多读者会仔细阅读你的论文可以让你成为一个更有效的作者，因为这会迫使你在撰写引言、方法和结果部分以及结论时投入更多的思考。如果你知道许多读者不太愿意阅读，比如背景部分，那么你就应该在介绍部分陈述该部分最重要的内容。在论文中漏掉重要信息是非常严重的失误。学术作家所犯的第二大罪过是委托读者（commission），其包括迫使读者在论文中寻找特定的信息。而读者时间成本很高，因此普通读者更可能放弃阅读该论文，而非自行寻找信息。当一个相对初级的学者（如博士生或助理教授）为了给更高级的读者（如教师顾问、期刊编辑或期刊审稿人）留下深刻印象而写作时，尤其如此。

[4]虽然我主要指的是在谈到“应用论文”时，通过简化形式的方法来评估兴趣因果关系的文章，但本文中的许多建议适用于其他类型的实证论文，如描述性或结构性论文。

[5] “研究项目”指的是回答给定研究问题的整个研究过程，从想法到发表。

[6]这并不是说一篇论文不可以同时研究几个问题。但最好是详细地回答一个单一的、相对狭窄的研究问题。多余的和无关的研究最好不要放在论文之中。

[7]一种可能是在没有数学的情况下，用语言进行理论论证，并将数学留在附录中。例如，见《桑切斯·德·拉·塞拉》(2020)。

[8]正如一位同事所指出的，如果D是二进制的，任何测量误差都不可能是经典的，因为它所观察到的D将与D的真值负相关。

[9]这假定你的研究设计必须是最好的。如果您的研究设计并不是最好的话，除非你显著提高了外部有效性，否则你需要向下调整你的目标期刊集。

原文：