分享

第十六课 缺失数据

 迷途中小小书童 2018-11-20

在原始数据采集的过程中,很难保证数据完整,有可能出现一些数据的缺失,对于数据分析,首先我们要对缺失数据进行处理。


缺失数据的分类:统计学家将缺失数据分为3类。

1.完全随机缺失:缺失数据与其他观测变量无关;

2.随机缺失:与其他观测变量相关,但是与自身为观测的值不相干;

3.非随机缺失:与自身未测得观测值不相干。


如何处理缺失数据:

在R中NA(not avaliable),用来存储缺失信息,NA表示没有,但是不等于零。

缺失值在R中的计算



如果数据中包含NA,我们可以用一个函数将NA去除,计算其他值



处理数据前,我们要知道数据中是否存在NA,那么对于大型数据需要通过调用函数查看,is.na(),遇到NA返回TRUE,其余返回FALSE



R中的SLEEP数据集含有缺失值,我们一起处理一下



加载这个包,然后查看sleep数据集



其中TRUE为缺失值,用colSums()计算每一列的NA数量


去掉数据集中的缺失值,na.omit()删除包含NA的行


缺失数据NaN,代表不可能的值

NaN是不存在的

Lnf代表无穷大或者无穷小



缺失数据NaN,代表不可能的值

NaN是不存在的

Lnf代表无穷大或者无穷小

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多