【原】临床大数据文献|缺失数据的单纯插补

医科研 2021-01-25

展开全文

欢迎来到医科研，这里是白介素2的读书笔记，跟我一起聊临床与科研的故事, 生物医学数据挖掘，R语言，TCGA、GEO, SEER数据挖掘。

临床大数据研究系列文献分享第4篇，由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志，这篇文章主要介绍的是处理大数据中的缺失值的单纯插补。这里只做学习交流，版权归原作者所有。

摘要

完整案例分析，也就是把缺失数据都删掉，只保留完整数据，广泛用于处理丢失的数据，它是许多统计软件包中的默认方法。但是，此方法可能会引入偏差，并且一些有用的信息将从分析中省略。因此，开发了许多插补方法来消除间隙。本文重点介绍单一插补。带有均值，中位数和众数的插补很简单，但像完整的案例分析一样，可能会导致均值和偏差出现偏差。此外，他们忽略了与其他变量的关系。回归估算可以保留缺失值和其他变量之间的关系。存在许多复杂的方法来处理纵向数据中的缺失值。本文主要关注如何实现R代码以执行单纯插补single imputation，同时避免复杂的数学计算。

介绍

缺失数据在大数据临床试验中无处不在。尽管许多研究没有明确报告它们如何处理丢失的数据，但统计软件中使用了一些隐式方法。结果，不同的软件包可能以不同的方式处理丢失的数据（或默认方法不同），并且可能无法通过使用不同的统计软件包来精确复制结果。有时这可能不会导致显着不同的结果，但是研究的科学可靠性受到了损害。最佳做法是明确说明如何处理缺失值。为简单起见，许多研究人员仅删除不完整的案例（按列表删除），这也是许多回归软件包中的默认方法（3）。仅当缺失值的数量不大且缺失模式完全随机缺失（MCAR）或MAR缺失时，此方法才能获得可靠的结果。完整案例分析的另一个缺点是信息丢失。当存在大量变量（列）时，这可能是一个大问题。由于删除是基于一个或多个变量的缺失，因此可以删除大量案例。此外，完整的案例分析可能会导致无法预测的偏差。解决这个问题的方法是数据插补。缺失值将替换为估算值。由于插补是一个活跃的研究领域，因此为数据插补开发了许多方法和软件包。本文旨在介绍一些用于丢失数据的基本插补方法。大数据临床试验系列的后续文章将讨论多重插补。

参考文献

Cite this article as: Zhang Z. Missing data imputation: focusing on single imputation. Ann Transl Med 2016;4(1):9. doi: 10.3978/j.issn.2305-5839.2015.12.38