【原】互助问答第892期：数据缺失使用ipolate填补，仍有缺失值，该怎么办？

新用户68639482 2023-06-30 发布于北京

展开全文

今日提问

老师您好！我的一些变量有缺失，导师建议我用线性插补，她说的意思大概是，有些变量随着年份推移一般是平稳的上升/下降的。请问这种情况stata有什么命令吗？我发现了ipolate。但是用 iplolate 有缺失变量 year, gen (新变量)之后依旧有不少缺失值。请问您知道有什么更好的方法吗？谢谢老师！

问题解答

ipolate是线性差值，是你需要的命令。但需要仔细阅读ipolate的用户手册，里面说了需要加epolate选项才能全部做插补。

本期关键词

数据处理

本期知识科普

常见的补漏方法有：

平均值补漏 (Mean Imputation)：用完整样本计算出来的平均值替代样本变量的缺失值。但是，均值补漏会减弱涉及补漏变量的相关性。这是因为在进行补漏的情况下，补漏确保在补漏变量和任何其他测量变量之间不存在任何相关关系。因此，均值补漏更适用于单变量的分析。

回归补漏 (Regression Imputation)：基于数据集建立回归方程，对于缺失值的对象，将其已知的变量值代入回归方程求解缺失值。该方法的问题在于，回归估计中不包含误差项。因此，这些估计值会沿回归线完全拟合，没有任何残留方差。这会导致关系被过度识别。回归模型仅仅是预测丢失数据的最可能值，但不会提供有关该值的不确定性。

向前/向后补漏 (多用于面板数据/时间序列) ：由于面板数据与时间序列数据具有时间上的连贯性，因此在某个时间点产生缺失值的情况下，我们可以用向前/向后一个时间点的数据来进行补漏处理。

多重补漏方法：Rubin (1987) 开发了一种多重补漏方法，该方法（MI）是一种基于模拟，并用于处理丢失的数据的灵活统计技术。MI 作为一种缺失数据的补漏技术，具有两个主要特征：1）运用现有统计方法进行的多种完整数据分析。2）将补漏过程与分析过程分离。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：新用户68639482 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多