分享

生信技巧第3课-请你务必学好R语言

 健明 2021-07-14

长期更新列表:

视频讲解-R爬取生信软件列表到思维导图

本期视频,学会R语言,方便你我他~~~


  • 为什么需要学习R语言呢?

    • 可能是想画一个热图

    • 或是想做GEO芯片数据分析

    • 也可以说是各种统计分析(比如生存分析,差异分析,lasso回归)

  • 各种搜索渠道

  • 了解并安装R

    • 安装包 install.packages(" xxxxxx ") 

    • 加载包 library( xxxxx ) 

    • 查看包的帮助文档help("xxxxx") 或?xxxxx 

    • 获取当前工作区间getwd() 更改工作区间

    • setwd( "xxxxxx") 

    • 清除当前对象rm() 

    • 安装包你一定会遇到错误,请参考: R包终极解决方案!(http://www./thread-144-1-1.html) 

    • R的包(package)(http://www./579.html)

    • 下载R语言的软件: https://cran./bin/windows/base/

    • 下载Rstudio这个R编辑器: https://www./products/rstudio/download/

    • 安装一些必要的包,了解CRAN和bioconductor

  • 理解R语言与Excel表格在数据处理的异同点

    • 重中之重!!!

  • 明白R中的变量

    • 向量和因子:向量特简单,没什么好说的,因子太复杂了,我说不清楚,你们慢慢理解。

    • 数据框:就像我们的表格,第一行就是每一列的名字,我们称之为字段,或者变量名。那么对应每列下面的数据就叫做记录或者观测。用data.frame( 字段1,字段2,…. )创建 )

    • 列表:与数据框类似,区别就是每一列向量类型和长度可以不一致。用list( 字段1, 字段2,….. )创建

    • 数组:其形式就像我们玩的模方,每一个面都是一个矩阵数据,用array(数据,各维度的最大值,各维度的名称)

  • 了解变量的基础操作函数

    • str,class,names,row.names,col.names,length,unique,view,min,max,summay,table

    • 我们处理生物信息学数据一般很少会手动创建这些对象,都是从文本里面读取,比如kegg数据库文件,差异分析结果,RNA-seq的表达量矩阵,但是读入之后,我们的重点就是知道它们变成了什么,该如何去一步步的转换它们。

    • 变量怎么来,对它们处理什么? 

    • 数据的特性函数也必须要知道,无非就是一些英文单词而已,你经常的玩一下,就慢慢的熟练了。

  • 数据对象的高级操作

    • 前面我们对向量,数据框,数组,列表都了解了,也知道如何查看数据的特性,但是要进行高级转换,就需要一些时间来学习apply系列函数,aggregate,split等函数的用法。这是一个分水岭,用好了你就算是R入门了。也可以用一些包,比如reshape2,dplyr。

    • 当然,R里面的字符串对象是另外完全不一样的操作模式,建议大家自行搜索学习。

  • 高级分支

    • 统计学

    • 可视化

    • bioconductor与生物信息学

    • shiny与网页

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多