在生信技能树我发布的GEO数据库挖掘教程也有不少了:目录:
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够 通常我都是教大家使用下面的代码下载任意GEO数据库的数据集: options(stringsAsFactors = F) # 注意查看下载文件的大小,检查数据 f='GSE76275_eSet.Rdata'
library(GEOquery) # 这个包需要注意两个配置,一般来说自动化的配置是足够的。 #Setting options('download.file.method.GEOquery'='auto') #Setting options('GEOquery.inmemory.gpl'=FALSE) if(!file.exists(f)){ gset <- getGEO('GSE76275', destdir=".", AnnotGPL = F, ## 注释文件 getGPL = F) ## 平台文件 save(gset,file=f) ## 保存到本地 } load('GSE76275_eSet.Rdata') ## 载入数据
但总是有部分大陆的朋友使用起来很困难,错误如下: 通常只有的网络错误,都很诡异,毕竟长城在这里。 解决方式也简单,加上代码: options( 'download.file.method.GEOquery' = 'libcurl' ) 即可! 再次运行后如下: 修改后就没有问题啦,下载进度条很喜人: 但是,这个时候会引入另外一个问题,如下: 新的问题需要新的解决方案,我们下回再讲。
|