分享

互助问答第892期:数据缺失使用ipolate填补,仍有缺失值,该怎么办?

 新用户68639482 2023-06-30 发布于北京

今日提问

     老师您好!我的一些变量有缺失,导师建议我用线性插补,她说的意思大概是,有些变量随着年份推移一般是平稳的上升/下降的。请问这种情况stata有什么命令吗?我发现了ipolate。但是用 iplolate 有缺失变量 year, gen (新变量)之后依旧有不少缺失值。请问您知道有什么更好的方法吗?谢谢老师!

问题解答

      ipolate是线性差值,是你需要的命令。但需要仔细阅读ipolate的用户手册,里面说了需要加epolate选项才能全部做插补。

本期关键词


数据处理

本期知识科普

常见的补漏方法有:

平均值补漏 (Mean Imputation):用完整样本计算出来的平均值替代样本变量的缺失值。但是,均值补漏会减弱涉及补漏变量的相关性。这是因为在进行补漏的情况下,补漏确保在补漏变量和任何其他测量变量之间不存在任何相关关系。因此,均值补漏更适用于单变量的分析。

回归补漏 (Regression Imputation):基于数据集建立回归方程,对于缺失值的对象,将其已知的变量值代入回归方程求解缺失值。该方法的问题在于,回归估计中不包含误差项。因此,这些估计值会沿回归线完全拟合,没有任何残留方差。这会导致关系被过度识别。回归模型仅仅是预测丢失数据的最可能值,但不会提供有关该值的不确定性。

向前/向后补漏 (多用于面板数据/时间序列) :由于面板数据与时间序列数据具有时间上的连贯性,因此在某个时间点产生缺失值的情况下,我们可以用向前/向后一个时间点的数据来进行补漏处理。

多重补漏方法:Rubin (1987) 开发了一种多重补漏方法,该方法(MI)是一种基于模拟,并用于处理丢失的数据的灵活统计技术。MI 作为一种缺失数据的补漏技术,具有两个主要特征:1)运用现有统计方法进行的多种完整数据分析。2)将补漏过程与分析过程分离。


    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多