现在回过头来看,很多教程已然过时,当然并不是说的知识点过时,其实linux基本上几十年都没有怎么变动过基础知识的,哪怕你现在搜索到十几年前的linux教学视频,也不会觉得尴尬。主要是其中一些资源链接,一些小技巧都过时了,比如R语言安装包,需求切换适合的镜像,或者某些配套书籍课程的URL肯定也会成为死链啦,所以非常有必要系统性整理一下,最新生信分析人员如何系统入门R 写在前面R语言不仅在生物信息数(主要体现在bioconductor系列包)据处理中发挥着重要作用,其实也是其他主流数据处理人士(包括互联网,金融,游戏行业)的首选工具。所以基本上找到我来咨询如何入门生物信息学的,我都是推荐他必须学的就是R。但是实际上呢,我作为老一辈的生信工程师,所以喜欢perl一点,排斥python,我也稍微看过一些python的语法,个人认为R和python呢almostly 几乎 一模一样的。R的特点就是内置了大量的函数,基本上你认识的英文单词都可以是一个函数,即使不是,你也可以自定义为函数。搞清楚了函数和变量,就可以看懂大部分的R代码了。通常我给初学者的知识点路线图如下:
六步系统入门R语言第一步:工欲善其事必先利其器既然要学习R语言,配套的软件工具必须要摸索到位,掌握一些神操作,大幅度提高你的生产力!
这里借用我们生信技能树优秀讲师(小洁)的R语言入门课程培训PPT内容,给大家展现Rstudio界面: 几个神技巧这些技巧真的是一般人我不告诉他,仅仅是因为大家是生信技能树的粉丝我才透露一下下,当然更多技巧你需要去B站看我的10个小时的R语言视频自行摸索啦!
第二步:变量和常量R语言跟python一样,并不是perl或者shell那样需要一些特殊字符( $,@等等)开头来代表它是一个变量,只需遵循变量命名规则的字符组合即可,所以呢,如果同样的字符要昨晚常量就必须使用单双引号这样才能区分变量和常量,当然了,数字本身就只能是常量了,变量也不能以数字开头,如果一个数字加上了引号,它就是常量的字符了。 更为详细的介绍如下: 多种数据类型(数值,字符,逻辑,因子)上面我们讲解了最简单的常量和变量,它们有数字和字符的差异,其实还有其它两个常用的数据类型,就是逻辑和因子。(请注意,我没有讲解因子哦) 多种数据结构(向量,矩阵,数组,数据框,列表)前面我们看到的常量和变量,都只有一个元素,是最简单的向量,实际上向量可以有多个元素,比如小明同学这个变量,他可以有名字(通常是字符),也可以有语数外的考试成绩(通常是数值),这就是长度不等的向量,如下: 但是通常一个班级不可能只有一个学生,如果有多个同学(还有小红和小绿),他们都有语数外成绩,就是一个矩阵了,一个二维矩阵,属于数组的范畴。 同样的道理,小明,小红和小绿这3个同学的语数外三门考试的成绩,可以跨越多个年度多次统计,这样就多了一个时间的维度,就是三维数组啦! 同样的道理,维度可以无限增加,比如增加一期中、期末考试的分类维度,就是4维数组。但这个不是重点。 重点是有些时候,向量和数组是不足以满足现实需求的,比如考试成绩里面,语数外都是得分,是数字,当然没有问题,但是呢,他们有一个政治成绩是PASS和failed这样的简单分类,我们的数组描述起来就有点困难了。 不过,即使我们解决了数字与字符混排这个麻烦,通过引入数据框这个知识点,比如病人的临床信息,就可以有不同的列,分别是数字的年龄,字符的TNM分期等等。但是仍然是有个问题,因为它太规范了,只能是多少行多少列的规则格式,实际上有可能是同一个班级里面的不同学生,他们可能是选修不同的课程,这样他们记录的成绩本来就是不一样的。 第三步:了解变量的基础操作函数有了变量和常量的概念,数据类型和数据结构的概念,我们就相当于是半只脚踏入R语言的大门了,因为我们有了数值型向量,所以可以对他们进行加减乘除的基本数学运算,如下: 因为我们有了字符型向量,也可以对其进行一系列的字符串操作 到这里,大家相当于把一本R语言教材书籍看了一半了,因为对没有编程思维的人来说,仅仅是理解这些知识点就耗费了她几个月的力气,不过对于有编程思维的人来说,也就是一杯咖啡的功夫过去了而已。 还有更多的函数,有待大家自行摸索和练习,一般来说需要入门R,掌握的函数起码得超过200个,更多函数,大家可以在我的生信五周年演讲素材看到400行基础代码:https://github.com/jmzeng1314/5years/blob/master/learn-R/tasks/1-guozi-400.R str,class,names,row.names,col.names,length,unique,view,min,max,summay,table 这里需要重点强调的就是学习help函数(你必须要把help函数用一百次以上,不然你不可能入门的!) 还需要仔细观察你的变量被你操作过程的变化,所以str,class两个函数也需要敲一百次以上。 值得提醒的是,通常我们的函数所操作的这些变量,都不是来自于我们自己创造,我们处理生物信息学数据一般很少会手动创建这些对象,都是从文本里面读取,比如kegg数据库文件,差异分析结果,RNA-seq的表达量矩阵,但是读入之后,我们的重点就是知道它们变成了什么,该如何去一步步的转换它们。(就是大家通常说的数据清洗) 第四步:对变量的统计可视化清洗好的变量就可以进行统计可视化啦,实际上大家只需要关心两大类统计概念,即:
数据总体来说可以分为以下三种类型:
定量数据的集中趋势指标主要是: 如果大家的英语还不错,就可以很容易看懂R里面的简单统计函数,无非就是 mean,sd,mad,cv,max,min,median等等。所以我针对性的出了30题考核大家的统计学:30道练习题带你玩转统计学的R语言版 在R里面,基本上任何数据都可以进行可视化,简简单单的几行绘图代码就可以画一大堆的图,plot,boxplot,barplot,pie,hist,pair,它们每个绘图函数都有自己要求的输入数据,特定的可视化结果,请务必在还没熟练使用之前help一下它们,自己主动查看它们好玩的地方,好好自学,下面我简单列出部分,如果大家确实感兴趣可以在我的生信五周年演讲素材看到600行的基础绘图练习代码:https://github.com/jmzeng1314/5years/blob/master/learn-R/tasks/2-chunjuan-600.R dev.new()新建画板 上面提到的这些函数基本上都有一系列的绘图参数(坐标轴、图例,颜色,性状,大小,空白,布局) , 非常繁琐,想掌握,花费的时间会非常多,但是很多人直接跳到ggplot的绘图世界了,不想搞那么多底层绘图代码。但是我看过一个底层R绘图集大成者,就Combining gene mutation with gene expression data improves outcome prediction in myelodysplastic syndromes文章的作者的github里面有。但是对大部分人来说,生信的绘图,都是有套路的,其实都被别人包装成函数了,做好数据,一个函数就出了所有复杂的图。比如热图,cluster等等。 至于高级可视化,就不得不提ggplot2了 因为ggplot2本身包含数据映射到图形元素的思想,不会适合所有人,而且讲解起来差不多也可以写一本书了,大家熟知的 http://www./Graphs/ 就是这样的一本书,把它从头到尾代码练习一遍就差不多了。 可能对大部分初学者来说,ggpubr加上http://www./ 会更方便,基本上你想绘制的图都被高手写过教程,一搜索就可以获得。 同样的,我也针对性的出了30个考核题给到大家:基于R的可视化习题30个 第五步:数据对象的高级操作普通数据(向量,数据框,数组,列表)的高级操作,主要是apply家族函数,以及aggregate,merge, split,by 等函数的用法。这是一个分水岭,用好了你就才可能是R入门了。也可以用一些包,比如reshape2,dplyr,可以做数据的高级操作。值得一提的是对大部分编程思维不够的朋友来说,可能需要有人讲解会方便入门。 数据对象的高级操作,主要是S3,S4对象,更多的是学习提出这个对象的R包的文档,比如我最近在单细胞天地集中介绍的5大单细胞流程R包:scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 而且分析流程也大同小异:
所谓对象,就是嵌套了不同的基础数据,包括向量,数据框,数组,列表,打包在了一起,这样可以统一操作,方便数据管理。 关于循环,实际上这里需要一个动图来展现,在我的生信五周年演讲我都提到过,恰好在郑州演讲被粉丝录屏了,所以感兴趣的可以自行去听那20分钟的视频,录屏,素材和视频都在微云,https://share./5NRQO8t 第六步:无限R包或函数前面我们提到过,掌握了变量和常量的概念,数据类型和数据结构的概念,我们就相当于是半只脚踏入R语言的大门了,然后加上这些数据的高级操作,就相当于入门了,可是R语言远不止那么简单,不同的人使用它的效率千差万别,比如因为可以自定义函数,所以我一行代码就可以完成3个R包的RNA-seq差异分析,见https://mp.weixin.qq.com/s/a5oAjpmnz1Jyx1fX89G1kw 因为持续学习,所以我可以通过现成的R包来自动化完成临床三线表,见https://mp.weixin.qq.com/s/N-Zlwz-IDG7p07A-NdAVJg 对于生信工程师来说呢,主要是遨游R的bioconductor世界,这也是为什么我要求搞生物信息学数据处理的人必须学习R,就是为了应用大量的bioconductor包。每学一个bioconductor的包,都是自己R水平的提升。大家可以参考我的博客:http://www./tag/bioconductor 我就是这样学习过来的。我还创建了bioconductor中国这个社区,可惜效果不好,有志者可以继续联系我,我们看看有没有可能做起来。 R语言的应用方向当然R肯定不只生物信息学啦,其实它在非常多的地方都有应用,尤其是金融和地理。在如何一个方向学习R,就不仅仅是R本身的语法了,你需要学习的东西太多了,我简单列出几个我接触过的方向吧:统计,科学计算,数据挖掘,文本挖掘,基础绘图,ggplot绘图,高级编程,都有着丰富的书籍和视频资料。 学习资源推荐部分优秀导航贴: 一些电子书推荐: 《A Handbook of Statistical Analyses_Using_R》 看完以上这些,你就是R大神了。当然,前提是你看懂了也会灵活应用。 |
|