分享

互助问答第652期:想使用双重差分,但是缺失数据过多,如何补救?

 新用户68639482 2022-03-30

问题介绍:   

老师您好,向您请教几个问题。做双重差分,采用的样本数据是企业自行汇报的,因变量数据存在较多缺失,有几个问题:

(1)是否一定要验证因变量的缺失是随机的?

(2)将因变量数据未缺失的企业设定为dum=1,缺失的企业设定dum=0,用其它反映企业特征的变量进行组间均值比较,这种方法,能否用来验证因变量的缺失没有引起样本选择偏差?

(3)若是上述方法可行,是只对政策出台前的特征变量进行比较,还是需要对整个样本期间的特征变量进行比较?谢谢!

问题解答:    

样本背后都有一个需要推断的总体。首先得看样本中的所有企业是否是某个总体的随机样本或是能代表这个总体,如果不能的话,那样本分析结果的外推性本身就是很含糊的,样本内部的缺失值就没有讨论的必要了。如果样本代表了一个清晰的总体,最好需要看一看取值缺失是否会影响样本的代表性。(2)中的方法很正确,拿来比较的变量最好是企业的外生变量,比如成立年份、所属行业、所有制性质等,这些变量基本不会受到政策影响,因此也就无所谓之前还是之后的了。

本期关键词:双重差分;数据缺失

  (通过关键词搜索,可以在公众号内找到更多相关解答哦)

本期知识科普:   

(1)样本数据的选取不可具有随意性,所选取的样本需要能代表总体。
(2)在满足(1)的情况下,如果存在较多缺失值,且缺失值影响了样本的代表性,则需要采取方法“补救“缺失值。
(3)“补救“的方法之一为:对反映企业特征的外生变量进行组间均值比较(时间跨度为整个样本期间)。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多