神奇的lapply

微笑如酒 2018-09-30

展开全文

曾经有一位大神讲过，区分R语言是否进阶的标准是，能否用好apply。这个大神叫Jimmy。

其实，我们在之前用apply去批量做过生存分析，当时为了提升速度，还是用了R语言的并行策略，parApply

TCGA真实数据下的批量生存分析

apply家族中还有一个更加神奇运用更广泛的成员，他的名字叫lapply，也就是list + apply，顾名思义，他返回的数据是列表

我们看看他的三个小应用：

第一，批量操作。

加入我想读入一下四个CSV格式的文件，我们可以一个一个的读：

fcsv1 = read.csv('B cell receptor signaling pathway.csv')
fcsv2 = read.csv('interferon-gamma-mediated signaling pathway.csv')
fcsv3 = read.csv('leukocyte migration.csv')
fcsv4 = read.csv('T cell receptor signaling pathway.csv')

如果有1000个文本呢，理论上对于一个会编程的人，重复的事情超过三次，他就受不了开始编写批量操作的脚本了，哪怕这个事情最终只要重复四次就可以完成，

这不是作秀，这是态度，关乎程序员的尊严。

如果用上lapply呢？首先我们把需要读取的文件名称提取出来

files = list.files(pattern='*.csv')
files

文件名称是这个样子的

> files
[1] 'B cell receptor signaling pathway.csv'
[2] 'interferon-gamma-mediated signaling pathway.csv'
[3] 'leukocyte migration.csv'
[4] 'T cell receptor signaling pathway.csv'

现在我们批量读取,x 是需要批量处理的因素，FUN表示施加的功能，这里是函数

lapply(X, FUN, ...)

fcsv <>

读取进去后，这四个文件已列表的形式存在于fcsv中,我们还可以对他命名

names(fcsv) <->

一般情况下，批量读取数据框后，还需要把他们合并，如果每一个文件的抬头一样，我们需要把文件按照行合并这时候会得到一个大的数据框

要实现这个操作有四种方法：分别是ldply，do.call,dplyr包中的bind_rows，data.table包中的rbindlist，

实际上最常用的是前面两个，我最开始使用的是do.call, 这些方法也是变化无穷的

exp_df1 <- plyr::ldply(fcsv,="">
exp_df2 = data.frame(do.call(rbind,fcsv))
exp_df3 = dplyr::bind_rows(fcsv)
exp_df4 = data.table::rbindlist(fcsv)

最终都能实现功能，其中ldply会把文件名称作为单独的一列，所以多一列，而其他方法把文件名加上系数作为行名。

实际上lapply只是实现批量操作，配套的函数，function才是他神奇的点睛之笔，我们可以用内置函数，比如，read.csv 也可以用自己定义的函数，这个在第三条的时候再说。

第二，批量读取Rdata数据。

把数据储存成Rdata是我R语言路上一个豁然开朗的瞬间，也是伟人Jimmy教给我的。

从此我告别了把数据在R语言里面写来写去的日子，所有中间数据保存成Rdata，一直到出图为止。

假如我的工作目录中有这个文件，导入是这个样子的,用load函数就行

load('Lasso_df_20000_01.Rdata')

那么如何批量读取Rdata呢，这里面有个小坑。

files = list.files(pattern='*.Rdata')
files

有6个文件需要读取

> files
[1] 'Lasso_df_20000_01.Rdata' 'Lasso_df_20000_02.Rdata'
[3] 'Lasso_df_20000_03.Rdata' 'Lasso_df_20000_04.Rdata'
[5] 'Lasso_df_20000_05.Rdata' 'Lasso_df_20000_06.Rdata'

按照之前的思路，用lapply

fload1 = lapply(files,load)

可以读取，但是读取到的是文件名称，不是内容，这是因为load会把文件存到临时地点，lapply会把他破坏掉，

下面的方法的两种方法可以把数据导入进来，任意选取一种，就是告诉他读取到全局环境变量中。

fload2 = lapply(files,load,.GlobalEnv)
fload3 = lapply(files,load,environment())

数据被读取进来，但是没有被存入list中，这时候我们需要用get函数获取到内容

fload = lapply(files, function(x) get(load(x)))

这就成功了，数据加起来有174Mb啊，同样的，也有四种方法可以把他们合并

df1 = plyr::ldply(fload, data.frame)
df2 = data.frame(do.call(rbind,fload ))
df3 = dplyr::bind_rows(fload )
df4 = data.table::rbindlist(fload)

这样就很方便了。

第三，批量作图。

只要lapply后面的函数不一样，就可以实现很多批量操作，

我们以批量作图这种直观的方式阐述以下如何自定义函数

本次还是使用以前的那个肿瘤表达数据，这个数据被用过至少3次

Y叔推荐的这个图有毒！

图有毒系列之2

多个基因在多亚组疾病中的展示

我们加载数据，加载R包，定义要作图的基因

load(file = 'TCGA_BRCA_exprSet_plot.Rda')
library(ggstatsplot)
genes <->'BRCA1','ESR1','TP53','ERBB2')

现在我们定义一个作图的函数，输入基因就出图

tnplot <->function(gene,exprSet){
require(ggstatsplot)
ggbetweenstats(data = exprSet,
x = sample,
y = gene)
}

我们输入一个基因测试一下,发现可以

tnplot('BRCA1',exprSet)

现在我们批量操作,还是用lapply，只不过当函数有多个参数的时候，第一个以外的写在函数后面，以逗号分隔，三个四个都可以

在本例中，expreSet这个数据集就是第二个参数，读取完毕后，所有的作图数据存在p1中。

p1 <- lapply(genes,="">

批量作图展示

library(cowplot)
plot_grid(plotlist=p1,nrow =2,labels = LETTERS[1:4])

是不是很赞，当然，lapply实现的是批量，具体有哪些惊艳的操作，取决于我们如何写出使用的function。

而函数是R语言进阶的另外一道坎，我也给自己丢下一个必填的坑。

Until next time，it‘s goodbye！

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：微笑如酒 > 《R》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

微笑如酒

关注对话

TA的最新馆藏

反常识厚葬敌首但是屠尽功臣
尿液中有泡沫，是肾不好了吗？
网传教师十大保命法则，字字玑珠！
为什么荀彧的后世评价远不及诸葛亮？
如果CT被滥用，人可能会没事变成有事！
收复河山4000里...连个传记都没有

喜欢该文的人也喜欢更多

热门阅读换一换