这是R数据科学的读书笔记之一,《R数据科学》是一本教你如何用R语言进行数据分析的书。即便我使用R语言快2年多了,但是读这本书还是受益颇多。
最早接触R语言的时候看的是《R语言实战》, 在第二章里,该书将R语言的数据结构分为6种,向量、矩阵、数组、数据框、因子和列表。当时的理解是,矩阵是二维的向量,数组是二维以上的向量,数据框是特殊性质的列表。 但是读完《R数据科学》的第15章:向量后,我发现原来R语言的数据结构原来可以只分为两类 原子向量和递归向量的 唯一区别 就在于其中存放的值是否都是同种类型。 向量(vector), 矩阵(matrix)和数组(array)以及因子(factor)都只能存放一种数据类型,因此 is.atomic 的判断结果都是TRUE, 所以都是原子向量 数据库和列表可以包含不同类型的数据,所以用 is.recursive 的判断结果是TRUE,所以都是递归向量
此外,每个向量都有两个关键属性(properties),类型和长度, 分别用 typeof() 和 length() 进行查看。分别去用 typeof() 查看向量、矩阵、数组、因子、数据框和列表时,你会发现前面4个返回都是6种基本数据类型,而数据框和列表返回的都是'list'. 我们还可以在向量上附加任意多的元数据(metadata),这些元数据称之为特征(attributes)。 附加不同的特性后就得到了扩展向量(augmented vectors), 其中名称、维度和类是三种特别重要的属性。 如果你去查看attribute和property的中文翻译时,你会发现两者都有一个释义叫做属性
从扩展向量的角度上看数据类型时,可以得到如下洞见 第一: 矩阵和数组相对于普通向量主要就多了一个 dim 属性,所以我们可以通过如下的操作来创建矩阵和数组 is.v.m.a <> function(x) {c(is.vector(x), is.matrix(x), is.array(x))}
v <> c(1,2,3,4)
is.v.m.a(v) # TRUE FALSE FALSE
attr(v,'dim') <> c(2,2)
is.v.m.a(v) # FALSE TRUE TRUE
attr(v,'dim') <> c(1,2,2)
is.v.m.a(v) # FALSE FALSE TRUE
注: 矩阵是特殊的数组。 第二:名称是一种额外属性, 对于向量是'names', 对于数组则是'dimnames[[x]]', x表示不同维度, 对于列表而言则是'names',对于数据框是'names'对于列名和'row.names'对于行名 v <> c(1,2,3,4)
attr(v,'names') <> c('a','b','c','d')
第三:类(class)也是一种属性,类是面向对象编程的一个概念。在R语言中,我们会发现同一个函数居然可以用在不同的数据集,比如说 print 用在ggplot2的对象中,结果是输出图片,这种函数就称之为泛型函数。 methods(print)# 内容过多,不在这里展示
# 我们可以具体某个函数的代码
getS3method('print','data.frame')
关于泛型函数的更多知识会在后续的面向对象编程里介绍。 其他知识点R语言的缺失值一般都标记为'NA', 因此在读取数据的时候默认也将文件中的'NA'当作缺失值,但是很有可能其他人会用'null'作为缺失值的标记,所以结果就会导致这一列全部被当做是字符串,影响后续的分析。 在向量取子集时,熟悉Python的人需要注意一点,Python中 x=[1,2,3,4];x[-1] 表示选择最后一个元素,而在R语言里 x=c(1,2,3,4);x[-1] 表示删除第一个元素,即R用负整数取子集时会丢弃对应位置的元素。 [ 和 [[ 在提取列表时,一定要注意, [[ 会使列表降低一个层次,而 [ 会返回一个新的、更小的列表,也就是
l <> list(c(1,2,3))
l[1] # 返回列表
l[[1]] # 返回向量
为了更好理解这两者在列表中的差异,作者还提供了一个非常形象的例子,我用另一个例子来说明下: 我所就读的初中每个年级段大概有10个班级,每个班级的人数都不太一样。那么这里的一个年级段就是一个列表 x ,每个班级都是列表里元素。那么 x[1] 表示的是解散其他所有班级,只留下第一个班级组成年级段。而 x[[1]] 表示是第一个班级。 x[[1]][1] 表示的可能是第一个班级里的第一个学生。 查看列表结构的最好方式是用函数str
|