本文首发于 ”百味科研芝士“ 微信公众号,转载请注明:百味科研芝士,Focus科研人的百味需求 前文我们讲到R处理数据面对的6种对象:向量,矩阵,数组,因子,列表,数据框。 A. 那我们就得好好给大家介绍一下这位能者的6个对象都长什么样子了。 向量大体上分为3种,数值向量,字符向量,逻辑向量。(单个向量内元素类型必须一致) 数值向量: > c(1,2,3,4,5,6,7) [1] 1 2 3 4 5 6 7 字符向量(字符向量使用单引号和双引号都可以,但是每个对称的引号必须一致): > c('a','b','c','d') [1] 'a' 'b' 'c' 'd' 逻辑向量(若想要把true和false写全,输入逻辑字符时就必须全部大写”TRUE”,”FALSE”): > c(T,F,T,F,T) [1] TRUE FALSE TRUE FALSE TRUE 生成向量的常用函数有:c()、seq()、rep() 第一个不需要解释了,其实就是 ”concatenate” 的缩写。各个元素之间需要用 ”,” 隔开。 #Tips:c()可以嵌套c(),如果是字符元素不加引号的话,会默认为变量。例: > c(c(1,2),3,4,5) [1] 1 2 3 4 5 > a<-c(1,2,3) > c(a,5,6) [1] 1 2 3 5 6 seq()函数是建立数字等差序列,其第一个参数是开始值,第二个参数为结束值,第三个参数为步长(不明确的情况下,默认为1,如果步长为1,可以用:代替),如:
> seq(5,11,2)(从5到11,步长是2) [1] 5 7 9 11 > 12:18 [1] 12 13 14 15 16 17 18 rep()函数是输出重复值,有两个参数,第一个参数是被重复的元素组合,第二个参数是重复次数/对应位置的元素重复次数。例(如果第二个参数是一个值,那么表示前一个参数整体重复的次数,如果是一个向量,那么就代表前面对应的位置的重复次数,大家可以考虑下如果两个参数的元素数量不同的情况会怎么样 如:rep(c(1,2,3),c(1,2))): > rep(c(1,3,5),3) (重复向量(1,3,5) 3次) [1] 1 3 5 1 3 5 1 3 5 > rep(seq(1,5,2),1:3) (分别重复1,3,5的次数为1,2,3次 1:3,相当于c(1,2,3) ) [1] 1 3 3 5 5 5 #Tips:在理解这6个对象时,小编推荐这样理解它们,如果每个元素是个点,向量就是一维的线。 矩阵是一个二维的元素向量组,其实就是向量的一个升维版,内部元素也必须一致。换句话说也可以分成三种类型的矩阵。 下面是矩阵的基本使用方法: matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL)
nrow/ncol代表行数/列数,byrow/bycol如果参数的值为TRUE,那么就代表按照行/列填满数据(默认纵向优先),dimname代表每个行和列的表头名(不是标题),dimname必须是list的格式。例: > mdat <- matrix(c(1,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE, dimnames = list(c('row1', 'row2'), c('C.1', 'C.2', 'C.3'))) > mdat C.1 C.2 C.3 row1 1 2 3 row2 11 12 13 “ ”代表内容未结束,接到下一行。 可以按列或者按行分别使用cbind和rbind函数将向量'粘’在一起。 >a<- cbind(A=1:5,B=6:10,C=15:19) >a A B C [1,] 1 6 15 [2,] 2 7 16 [3,] 3 8 17 [4,] 4 9 18 [5,] 5 10 19 #Tips:这个对象就像多个向量的平行拼接,而且必须是规则的矩形,恩~总的来说就是很方的二维平面。
数组就像是更高维的矩阵,通常使用dim()函数来创建所需要的维度。内部元素类型需相同。同样的,数组内部元素类型必定是一样的。这里的数组可以很高的维度。 下面是数组的使用方法: array(data = NA, dim = length(data), dimnames = NULL)
dim参数指定每一个维度的水平数,后面的永远是高维度的水平。比如dim=c(3,2,4),说明这个数组是个4*2*3的数组,即有4个2*3的矩阵面平行拼接。 例: >a<-c(1,1,2,1,2,1,1,2,1,2,1,1,2,2,2,2,1,1,2,1,2,2,1,2,1,1,2,2,1,2,2,2,1,2,1,1,2,1,2,2,1,1,1,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1,2,1) (这是两个30人5列6排的班里的同学性别列表 1是男性,2是女性)
>gname=c('class1','class2') >rname=c('r1','r2','r3','r4','r5','r6') >cname=c('c1','c2','c3','c4','c5') >array(a,dim=c(6,5,2),dimnames=list(rname,cname,gname)) , , class1
c1 c2 c3 c4 c5 r1 1 1 2 2 1 r2 1 2 2 1 1 r3 2 1 2 2 2 r4 1 2 2 2 2 r5 2 1 1 1 1 r6 1 1 1 2 2 , , class2 c1 c2 c3 c4 c5 r1 2 2 1 2 2 r2 2 1 1 1 1 r3 1 2 2 2 2 r4 2 2 1 1 1 r5 1 1 2 2 2 r6 1 1 1 1 1 #Tips:这个对象就像多个矩阵面的平行拼接,可以看成长方体。 因子是使用向量创建的R对象,类似统计学中的分类变量,它将向量与向量中元素不同值一起存储成标签,而不论是哪种类型的向量,最后都存储成字符型元素。而这种数据结构使得不同的分类类别被赋予有意义的名称成为可能。例: > pain<-c(0,3,2,2,1,3) > fpain<-factor(pain,levels=0:3) > levels(fpain)<-c('none','mild','medium','severe') > fpain [1] none severe medium medium mild severe Levels: none mild medium severe Pain表示6个病人的疼痛水平编码,我们希望把它看成一个分类变量处理,通过factor函数建立因子fpain,levels表示使用0,1,2,3来编码前面的向量,理论上levels可以省略。 列表是一个大杂烩,她可以把很多不同类型的向量复合在一起。并且,可以允许每个向量的长度不同,比较适合隶属于同一单位的多个属性的结合。 例:张三的老师制作了一个列表,包含姓名,各科成绩和是否通过: > name<-c('zhang san','san er') > score<-c(98,87,79,89,91) > pass<-TRUE > mylist<-list(name,score,pass) > mylist [[1]] [1] 'zhang san' 'san er' [[2]] [1] 98 87 79 89 91 [[3]] [1] TRUE 另外,单独提取列表中的一个部分,可以利用列表名后的[[1/2/3]]来提取。例如: > mylist[[2]] [1] 98 87 79 89 91 要再进一步提取元素可以再加后标 [1/2/3/4/5] > mylist[[2]][2] [1] 87 #Tips:由此可见列表可以将长度不同,类型不同的向量拼接在一起,甚至可以嵌套列表。许多R的内置函数计算结果不仅仅是一个向量,因此以列表的形式返回结果。可以理解为二维不规则数据。 到最后一个对象了,在其他统计软件包中,数据框被称为“数据矩阵”或“数据集”,他是一系列等长度的向量和/或因子,交叉相关,很适合数据收集的类型。 例: > d<-data.frame( gender=c('Male','Female','Female'), height=c(171.5,152,165), weight=c(61,56,55), age=c(42,38,26) ) >d Gender height weight age 1 Male 171.5 61 42 2 Female 152.0 56 38 3 Female 165.0 55 26 数据框调用单个变量时,可以直接使用变量名如: > d$age [1] 42 38 26 #Tips:数据框的感觉就像每一行代表一个单位,每一列代表一项属性,因此每列内部数据类型一致,而列间数据类型可能不同。可以理解为二维规则数据。 如果需要向量中一个具体的元素,你可以用以下办法: > a<-c(1,3,5,7,9) > a[2] [1] 3 方括号用来选择数据,也称为索引(indexing)或子集选择(subsetting)。如果希望修改元素值的话,可以采用左侧赋值(比如:> a[2]<-4 来把原来的3覆盖成4 ) 展示多个值,可以使用一个向量来索引: > a[c(1,3,5)] [1] 1 5 9 #Tips:这个c()是有必要的 如果是a[1,3,5]是指定一个三维的阵列(a)中的一个点,而不是3个点。 同时也可以采用负索引,如果想把7和9从a中剔除掉的结果,可以: > a[c(-4,-5)] [1] 1 4 5 当然有的时候我们并不知道我们想要的数据在一个向量中的位置,只需要部分满足条件的值,那么可以插入一个关系表达式来完成,选择向量中大于100的值输出: > b=c(123,132,156,245,54,56,101) > b[b>100] [1] 123 132 156 245 101 比较操作符有<(小于),>(大于),==(等于),<=(小于等于),>=(大于等于),!=(不等于)。这里需要注意双等号用来判断是否相等,避免与赋值符号”=”混淆,!表示否定。还有几个结合表达式,逻辑运算符&(和),|(或),!(非)。如: > b[b>100 & b<150] [1] 123 132 101 #Tips:其实,中间还含有一步逻辑判断结果的输出,如在上一个过程中: > b>100 & b<150 [1] TRUE TRUE FALSE FALSE FALSE FALSE TRUE 然后是 b[TRUE TRUE FALSE FALSE FALSE FALSE TRUE] 来控制每一个元素是否输出 ## 之前我们提到数据框提取向量,使用d$age来提取d中的age变量。还有另一种方法: > d[ ,4] [1] 42 38 26 #Tips:4前面的”,”最好保留,尽管在这里有和没有结果是一样的,但是输出的形式不同,而且也方便理解。只有一个数字的索引在数据框中只会提取列数据,不会提取行数据,所以d[3, ]中的”,”省掉和不省结果是不同的。逗号前代表行,逗号后代表列。 同时,前面提到的条件选择在这里也同样适用,提取数据框d中年龄<40的单位。 > d[ d[,4]<40, ] gender height weight age 2 Female 152 56 38 3 Female 165 55 26 这里,d[,4]<40 返回的值是一个向量,[1] FALSE TRUE TRUE,然后这个结果在索引逗号的前面代表行入选结果,第一行剔除,后两行保留。逗号后空白,代表保留所有列。#Tips:在R中如果这种嵌套内容让你产生了困惑,建议分解成细小的步骤,先把内环的东西结果研究明白,循序渐进,这样就会更加容易。 有的时候,数据条目过多,只想显示开头的几行,怎么办呢? > head(trees) Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16.4 5 10.7 81 18.8 6 10.8 83 19.7 #Tips:R本身内置了许多数据集,可以通过data()来展示它们,这里的trees就是其中一个内置的数据集。head()函数默认显示前六行。同理,tail() 函数是显示数据的最后6行。 有的时候我们需要把一个数据集中的不同类型的单位区分开,以R自带的iris(鸢尾花)数据集为例: > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 通过species变量把数据分成三个部分(species有三个取值:setosa, versicolor, virginica): > set<-iris[iris$Species=='setosa', ] > ver<-iris[iris$Species=='versicolor', ] > vir<-iris[iris$Species=='virginica', ] 或者也可以使用split()函数,他根据分组生成一系列向量(列表): > list1<-split(iris,iris$Species) > list1 #Tips:因为结果都过大,这里不集中展示。 对向量的排序是常见工作,只需要使用sort()函数即可。 > e<-c(7,7,4,2,3,8,2,8,4) > sort(e) [1] 2 2 3 4 4 7 7 8 8 有的时候,对单一的向量的排序并不能满足我们的要求,有的时候需要根据一个变量的排序来规划其他变量的顺序。有一个特别抽象的函数order(),首先他展示的是变量的次序(这个函数有点像看病叫号): > height<-c(173,180,175,169,171,171,173,168,181,179,170) > weight<-c(65,70,70,62,60,58,69,73,86,80,71) > f<-data.frame(height,weight) > f height weight 1 173 65 2 180 70 3 175 70 4 169 62 5 171 60 6 171 58 7 173 69 8 168 73 9 181 86 10 179 80 11 170 71 > g<-order(f$height) > g [1] 8 4 11 5 6 1 7 3 10 2 9 > f$weight[g] [1] 73 62 71 60 58 65 69 70 80 70 86 当然对于多个变量的数据框也可以排序: > f[g, ] height weight 8 168 73 4 169 62 11 170 71 5 171 60 6 171 58 1 173 65 7 173 69 3 175 70 10 179 80 2 180 70 9 181 86 当有需要按照两个变量排序的时候,比如性别,年龄排序,那么就可以> order(sex,age)这样就可以实现先按男女排,后按年龄排序了。 到这里,我们R的对象就介绍完了。这部分的内容是一个基础的部分,可以让你理解R是怎样工作的。之后我们将继续揭开R的神秘面纱,敬请期待吧。
|