搜索

分享

QQ空间 QQ好友新浪微博微信

第十六课缺失数据

迷途中小小书童 2018-11-20

展开全文

在原始数据采集的过程中，很难保证数据完整，有可能出现一些数据的缺失，对于数据分析，首先我们要对缺失数据进行处理。

缺失数据的分类：统计学家将缺失数据分为3类。

1.完全随机缺失：缺失数据与其他观测变量无关；

2.随机缺失：与其他观测变量相关，但是与自身为观测的值不相干；

3.非随机缺失：与自身未测得观测值不相干。

如何处理缺失数据：

在R中NA(not avaliable)，用来存储缺失信息，NA表示没有，但是不等于零。

缺失值在R中的计算

如果数据中包含NA,我们可以用一个函数将NA去除，计算其他值

处理数据前，我们要知道数据中是否存在NA,那么对于大型数据需要通过调用函数查看，is.na（），遇到NA返回TRUE,其余返回FALSE

R中的SLEEP数据集含有缺失值，我们一起处理一下

加载这个包，然后查看sleep数据集

其中TRUE为缺失值，用colSums（）计算每一列的NA数量

去掉数据集中的缺失值，na.omit（）删除包含NA的行

缺失数据NaN，代表不可能的值

NaN是不存在的

Lnf代表无穷大或者无穷小

缺失数据NaN，代表不可能的值

NaN是不存在的

Lnf代表无穷大或者无穷小

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：迷途中小小书童 > 《r语言》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

迷途中小小书童

关注对话

TA的最新馆藏

双靶点CRISPR CAS9载体构建(哺乳动物细胞)
铁死亡的详细介绍
qPCR数据整理分析
实验动物用计量的换算方法
流式细胞染色
RNA 结合蛋白查询数据库

喜欢该文的人也喜欢更多

热门阅读换一换