分享

临床大数据文献|缺失数据的单纯插补

 医科研 2021-01-25
图片源自网络

  

欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO, SEER数据挖掘。



       临床大数据研究系列文献分享第4篇,由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志,这篇文章主要介绍的是处理大数据中的缺失值的单纯插补这里只做学习交流,版权归原作者所有。

摘要

完整案例分析,也就是把缺失数据都删掉,只保留完整数据,广泛用于处理丢失的数据,它是许多统计软件包中的默认方法。但是,此方法可能会引入偏差,并且一些有用的信息将从分析中省略。因此,开发了许多插补方法来消除间隙。本文重点介绍单一插补。带有均值,中位数和众数的插补很简单,但像完整的案例分析一样,可能会导致均值和偏差出现偏差。此外,他们忽略了与其他变量的关系。回归估算可以保留缺失值和其他变量之间的关系。存在许多复杂的方法来处理纵向数据中的缺失值。本文主要关注如何实现R代码以执行单纯插补single imputation,同时避免复杂的数学计算。

介绍

缺失数据在大数据临床试验中无处不在。尽管许多研究没有明确报告它们如何处理丢失的数据,但统计软件中使用了一些隐式方法。结果,不同的软件包可能以不同的方式处理丢失的数据(或默认方法不同),并且可能无法通过使用不同的统计软件包来精确复制结果。有时这可能不会导致显着不同的结果,但是研究的科学可靠性受到了损害。最佳做法是明确说明如何处理缺失值。为简单起见,许多研究人员仅删除不完整的案例(按列表删除),这也是许多回归软件包中的默认方法(3)。仅当缺失值的数量不大且缺失模式完全随机缺失(MCAR)或MAR缺失时,此方法才能获得可靠的结果。完整案例分析的另一个缺点是信息丢失。当存在大量变量(列)时,这可能是一个大问题。由于删除是基于一个或多个变量的缺失,因此可以删除大量案例。此外,完整的案例分析可能会导致无法预测的偏差。解决这个问题的方法是数据插补。缺失值将替换为估算值。由于插补是一个活跃的研究领域,因此为数据插补开发了许多方法和软件包。本文旨在介绍一些用于丢失数据的基本插补方法。大数据临床试验系列的后续文章将讨论多重插补

BCT04-1.png
BCT04-2.png
BCT04-3.png
BCT04-4.png
BCT04-5.png
BCT04-6.png
BCT04-7.png
BCT04-8.png

参考文献

Cite this article as: Zhang Z. Missing data imputation: focusing on single imputation. Ann Transl Med 2016;4(1):9. doi: 10.3978/j.issn.2305-5839.2015.12.38

One more thing

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多