用R语言进行数据清洗

生物_医药_科研 2019-01-24

展开全文

数据分析前先数据清洗，这一步是最耗费时间的过程。

今天总结下R语言数据合并和清洗的部分语句。

（1）横向合并(按行合并): merge语句

例：有两个数据集，student1和student2，想讲两个数据集合并起来，我们就用到merge语句

> student1<>
> student1
ID name
1 1 Jim
2 2 Tony
3 3 Lisa
4 4 Tom
> student2<>
> student2
ID score
1 1 89
2 2 22
3 3 78
4 4 78

观察数据集可知，数据集中有相同的变量“ID”，可以按照这个变量将两个数据集匹配合并。

> total_student<>
> total_student
ID name score
1 1 Jim 89
2 2 Tony 22
3 3 Lisa 78
4 4 Tom 78

合并后的结果见上图。

另外一个函数是cbind

（2）纵向合并（按列合并）

> student1<>
> student1
ID name
1 1 Jame
2 2 Kevin
3 3 Sunny
> student2<>
> student2
ID name
1 4 Sun
2 5 Frame
3 6 Eric

数据集是ID不同，按照ID纵向合并：

> total<>rbind(student1,student2)
> total
ID name
1 1 Jame
2 2 Kevin
3 3 Sunny
4 4 Sun
5 5 Frame
6 6 Eric

（3）选取行数
manager<>
date<-c('10>
country<>
gender<>
age<>
q1<>
q2<>
q3<>
q4<>
q5<>
leadership<>
leadership$agecat[leadership$age>75]<-'elder' #是将年龄大于75岁的选出来赋值为="">
leadership$agecat[leadership$age>=55 &leadership$age<><-'middle aged'="">#是将年龄大于55岁小于75岁的人选出来赋值为 “Middle Aged”
leadership$agecat[leadership$age<><>
#是将年龄大于55岁小于75岁的人选出来赋值为 “Young”
newdata<>

（4）#剔除变量 %in%
manager<>
date<-c('10>
country<>
gender<>
age<>
q1<>
q2<>
q3<>
q4<>
q5<>
leadership<>
leadership$agecat[leadership$age>75]<>
leadership$agecat[leadership$age>=55 &leadership$age<><-'middle>
leadership$agecat[leadership$age<><>
myvars<-names(leadership) %in%="">
newdata<>
newdata
mydata<>
mydata

（5）#选取1：3行
newdata<>
newdata

（6）#选取指定条件数据 which条件
newdata<-leadership[which(leadership$gender=='f' &="" leadership$age="">30),]
newdata

（7）#选取时间which
leadership$date<-as.date(leadership$date,'%m>
startdate<>
enddate<>
newdata<-leadership[which(leadership$date>=startdate & leadership$date<>
newdata

（8）#subset函数应用
newdata<-subset(leadership,age>=35|age<>
select=c(manager,date,country,gender,age,q1,q2,q3,q4,q5))
newdata
newdata<-subset(leadership,age>=35 & gender=='F',
select=manager:q5)
newdata

（9）#排序
manager<>
date<-c('10>
country<>
gender<>
age<>
q1<>
q2<>
q3<>
q4<>
q5<>
leadership<>
leadership$agecat[leadership$age>75]<>
leadership$agecat[leadership$age>=55 &leadership$age<><-'middle>
leadership$agecat[leadership$age<><>
leadership$date<-as.date(leadership$date,'%m>
newdata<>
newdata