在原始数据采集的过程中,很难保证数据完整,有可能出现一些数据的缺失,对于数据分析,首先我们要对缺失数据进行处理。 缺失数据的分类:统计学家将缺失数据分为3类。 1.完全随机缺失:缺失数据与其他观测变量无关; 2.随机缺失:与其他观测变量相关,但是与自身为观测的值不相干; 3.非随机缺失:与自身未测得观测值不相干。 如何处理缺失数据: 在R中NA(not avaliable),用来存储缺失信息,NA表示没有,但是不等于零。 缺失值在R中的计算 如果数据中包含NA,我们可以用一个函数将NA去除,计算其他值 处理数据前,我们要知道数据中是否存在NA,那么对于大型数据需要通过调用函数查看,is.na(),遇到NA返回TRUE,其余返回FALSE R中的SLEEP数据集含有缺失值,我们一起处理一下 加载这个包,然后查看sleep数据集 其中TRUE为缺失值,用colSums()计算每一列的NA数量 去掉数据集中的缺失值,na.omit()删除包含NA的行 缺失数据NaN,代表不可能的值 NaN是不存在的 Lnf代表无穷大或者无穷小 缺失数据NaN,代表不可能的值 NaN是不存在的 Lnf代表无穷大或者无穷小 |
|