萌小芊 / 统计 / R语言笔记1:数据类型(向量、数组、矩阵...

分享

   

R语言笔记1:数据类型(向量、数组、矩阵、 列表和数据框)

2018-03-07  萌小芊


宏基因组按:科研中数据分析解读占用了我们太多时间,学习R语言是生物测序领域数据(reads count表)分析及可视化的首选。举个例子,扩增子分析从fastq到OTU表至多是de novo或reference两种套路(1-3天)。而对OTU表开始的组间比较、网络分析、机器学习等会有上百种方法和展示方式,每一篇优秀的文章,都是数据反复咀嚼上百次优化出来的结果(3个月-3年),而这一漫长的科研之路有R语言技能的相伴,可将统计分析可视化操作一网打尽,定能助你事半功倍。

前期公众号己分享了扩增子、宏基因组分析流程及可视化文章上百篇,但一直缺少基础入门的知识。今天起分享一位从18年3月1号刚要从wet转dry的学生零基础学习笔记,供初学者学习,虽然笔记会有不系统的地方,但也正是初学者需要经历和面对的,希望想入行的快上车,共同学习,一起成长。


学习R语言,需要先安装R语言,只需要从 https://www.r-project.org/ 下载适合你系统的最新版本软件安装即可。R语言有个优秀的环境叫Rstudio,具体安装可参考  《R语言学习 - 入门环境Rstudio》一文。


R语言中的数据类型(Data Types)

R语言的对象(Objects)主要包括向量、矩阵、数组、数据框和列表。

R语言的对象有五种最基本的类型,即,字符型(character)、数值型(numeric,包括小数)、整型(integer)、复数型(complex)以及逻辑型(logical,TRUE/FALSE)

属性是R语言对象的一部分。主要包括以下几种:名字(names,dimnames),维度(dimensions,包括矩阵等),类别(class,包括数字、整数等),长度(length),以及其他。可通过 attributes()函数查看对象的属性,不是所有对象都有属性,如果没有则返回NULL。


1. 向量

向量(vector)是R语言中最基本的数据类型,执行组合功能的函数 c()可用来创建向量。

各类向量如下例所示:

  1. a <> c (1, 2, 7, -4, 5)            ## numeric

  2. b <> c ('Rice', 'Wheat')           ## character

  3. c <> c (TRUE, TRUE, FALSE, TRUE)   ## logical

  4. d <> c (1+0i, 2+4i)                ## complex

  5. e <> c (9:17)                      ## integer

注意:单个向量中的数据必须拥有相同的类型(数值型、字符型或逻辑型)。

创建空向量可以使用 vector()函数。例如创建一个指定长度为10、类型为数值型的空向量:

  1. > x <> vector('numeric', length = 10)

  2. > x

  3. [1] 0 0 0 0 0 0 0 0 0 0

另外,标量是只含一个元素的向量,它们用于保存常量。例如

  1. f <> 3

  2. g <> 'US'

  3. h <> TRUE

2. 矩阵

矩阵(matrice)是具有维度属性的向量,矩阵都是二维的,和向量类似,矩阵中也仅能包含一种数据类型。

主要有三种创建矩阵的方法:

(1)直接创建

例:数字1-20自动创建为一个5行4列的矩阵,自动填充第一列之后开始填充第二列

  1. y <> matrix(1:20, nrow = 5, ncol = 4)

  2. > y

  3.     [,1] [,2] [,3] [,4]

  4. [1,]    1    6   11   16

  5. [2,]    2    7   12   17

  6. [3,]    3    8   13   18

  7. [4,]    4    9   14   19

  8. [5,]    5   10   15   20

  9. > dim(y)                          

  10. [1] 5 4                            ##dim()看维度,5行4列

(2)矢量+维度向量

添加维度向量 dim()是将矢量转变为矩阵的方法

  1. > m <> c(1:10)

  2. > m

  3. [1]  1  2  3  4  5  6  7  8  9 10

  4. > dim(m) <> c(2,5)                   ##2行5列          

  5. > m

  6.     [,1] [,2] [,3] [,4] [,5]

  7. [1,]    1    3    5    7    9

  8. [2,]    2    4    6    8   10

(3)绑定行或列来创建矩阵

绑定行或绑定列可以通过 cbind()rbind()来实现

  1. > x <> 1:3

  2. > y <> 10:12

  3. > cbind (x, y)

  4.     x  y

  5. [1,] 1 10

  6. [2,] 2 11

  7. [3,] 3 12

  8. > rbind (x, y)

  9.  [,1] [,2] [,3]

  10. x    1    2    3

  11. y   10   11   12

3. 数组

数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建。

4. 列表

列表(list)是一种可包含多种不同类型对象的向量,是一些对象(或成分,component)的有序集合。

  1. > x <> list(1, 'a', TRUE, 1 + 4i)

  2. > x

  3. [[1]]

  4. [1] 1

  5. [[2]]

  6. [1] 'a'

  7. [[3]]

  8. [1] TRUE

  9. [[4]]

  10. [1] 1+4i

5.数据框

数据框(Data Frames)是一种特殊的列表,其中所用元素长度都相等,列表中的每个元素都可以看作一列,每个元素的长度可以看作行数。

创建显式数据框的方法是 data.frame()

  1. > ID <> c(1,2,3,4)

  2. > age <> c(25,26,55,43)

  3. > diabetes <> c('Type1','Type2','Type3','Type1')

  4. > status <> c('Poor', 'Improved', 'Excellent','Poor')

  5. > data <> data.frame(ID, age, diabetes, status)

  6. > data

  7.  ID age diabetes    status

  8. 1  1  25    Type1      Poor

  9. 2  2  26    Type2  Improved

  10. 3  3  55    Type3 Excellent

  11. 4  4  43    Type1      Poor

参考资料:

  1. https://bookdown.org/rdpeng/rprogdatascience/R Programming for Data Science

  2. 《R语言实战》 Robert I. Kabacoff

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>