数据插补

求是1025 2023-03-31 发布于山东

展开全文

基本内容

实际数据获取过程中，常常存在由于遗漏、忽视、成本过高或无法获得等主客观原因导致数据缺失。由于缺失值的存在，原始数据看上去有很多“窟窿”，从而使传统的统计分析方法不便于应用。数据插补是给每一个缺失数据一些替代值，这些替代值称为插补值。经过数据插补后，补全了缺失的数据，得到完全数据集，这时统计分析人员可以方便地使用常用的统计分析软件、运用常用的统计分析方法来分析数据。而且不同的分析人员采用相同的插补方法，会得到相同（或相近）的调整后数据，可保证分析结果的一致性。

处理数据缺失问题，数据插补是一种方便的、常见的方法。它可以给数据分析者创建一个“完整”的数据集，但是插补数据毕竟不是真实数据，得到的分析结果和真实情况会存在一定的偏差。数据插补的效果取决于替补值与缺失值的近似程度，所以数据插补的目的并不是预测单个缺失值，而应该是预测缺失数据所服从的分布。

分类

数据插补方法从不同的角度可得到不同的分类。根据插补值是否包括随机项可分为随机插补（stochastic imputation）和确定性插补（deterministic imputation），随机插补每次得到的插补值可能不同，而确定性插补会得到相同的值。根据确定性插补值时是否使用辅助变量，可分为使用辅助变量的插补法和不使用辅助变量的插补法。进一步，使用辅助信息的插补法根据信息来源可分为热卡插补（hot deck imputation）和冷卡插补（cold deck imputation）。热卡插补的辅助信息来自当前调查，冷卡插补的信息来自以前的同类调查或其他已有的关于缺失数据单元的资料。根据对每个缺失值的插补值的个数，插补方法又可分为单一插补（single imputation）和多重插补（multiple imputation）。单一查补是指对于每个缺失值，从它的预测分布中选择一个值进行替代，进而得到一个完全数据集。多重插补为每个缺失值都插补了 $m(m>1)$ 个可能的估计值，这些值反映了缺失数据的不确定性，形成个完全数据集，对每个数据集，采用同样的方法得到 $m$ 个分析结果，综合这个插补数据集的分析结果，再进行最终的统计推断，多重插补的目的在于估计量的方差估计。

基本思想

单一插补法使用如下模型：

$Z_i=f(X_i)+e_i$

式中 $Z_i$ 为插补值， $X_i$ 为第 $i$ 个无回答单元的辅助信息向量， $f$ 为辅助变量某一函数， $e_i$ 为残差。对每个缺失值，用其预测分布的平均值或从中抽取的一个值作为插补值。它以观测数据为基础，为插补建立一个预测分布，分布假定明确情形下有：均值插补（mean Imputation）、比率插补（ratio imputation）和回归插补（regression imputation）等。分布假定模糊情形下，需采用某种算法，例如：最近邻插补（nearest neighbour imputation）、热卡插补、冷卡插补等。

数据插补研究不断发展，最初学者们先在较强的缺失数据假定条件下对插补后的估计量性质进行研究，进而不断放宽假定条件，使其更加符合实际中缺失数据的状态，从而不断完善数据插补的理论体系并发展其实践应用。

应用案例

例如单变量随机样本 $Y=(y_1,y_2,…,y_n )^T$ ， $y_i$ 是单元的变量值。 $M=(m_1,m_2,…,m_n )^T$ ，当 $y_i$ 缺失时， $m_i=1$ ，否则 $m_i=0$ 。 $n_1$ 为响应单元个数，即指示变量 $m_i$ 的个数。对所有的缺失值，可用所有响应单元观测值的均值插补，插补值为 $\bar y_1=\frac{\sum m_i y_i }{n_1 }$ ，这就是采用了单一均值插补方法。插补后数据的样本均值就是响应单元观测值均值，插补后数据的样本方差是 $\frac{n_1-1}{n-1}S_1^2$ ， $S_1^2$ 为响应单元样本方差。在完全随机缺失或随机缺失机制下， $S_1^2$ 是总体方差的相合估计，所以插补后造成估计量方差低估。

如还有辅助变量 $X=(x_1,x_2,…,x_n )^T$ ，如第 $i$ 个单元 $y_i$ 缺失，但辅助变量 $x_i$ 存在，则 $y_i$ 的比率插补值为 $\hat{\beta}x_i$ ， $\beta$ 为反映变量 $Y$ 与辅助变量 $X$ 之间关系的比率，其估计值为： $\hat{\beta}=\frac{\sum_im_iy_i}{\sum_im_ix_i}$ ，这种插补方法为比率插补。