GEO数据库里面有四种数据 At the most basic level of organization of GEO, there are four basic entity types. The first three (Sample, Platform, and Series) are supplied by users; the fourth, the dataset, is compiled and curated by GEO sta from the user-submitted data. GEO accession number (GPLxxx). GEO accession number (GSMxxx) GEO accession number (GSExxx). GEO DataSets (GDSxxx) 记住大小关系:一个GDS可以有多个GSM,一个GSM可以有多个GSE,至于GPL,一般不接触的 我们通常接触的都是GSE系列(一个GSE里面有多个GSM)的数据,而且这个包最重要的就是一个getGEO函数。 只要你通过文献确定了你的检索号,就可以通过这个函数来下载啦 检索号一般是A character string representing a GEO object for download and parsing. (eg., ‘GDS505′,’GSE2′,’GSM2′,’GPL96′ 这个函数有很多参数,除非你需要下载的文件,那么就设置destdir到你喜欢的目录,如果只需要表达量数据就不用了。 getGEO(GEO = NULL, filename = NULL, destdir = tempdir(), GSElimits=NULL, GSEMatrix=TRUE,AnnotGPL=FALSE) 例如: gds <- getgeo(“gds10″)="">-> gse2553 <->-> GDS2eSet函数可以把上面这个下载函数得到的对象(要确定是GDS而不是GSE)变成表达对象 pData和exprs函数都可以处理上面这个表达对象,从而分别得到样品描述矩阵和样品表达量矩阵 综合一起就是 g4100 <->-> g4102 <->-> e4102<> e4100<> 这样的代码,这个e4100和e4102就都是一个数值矩阵啦,可以进行下游分析,但是如果是下载的GSM数据 就用下面这个代码,GSE26253_series_matrix.txt是通过GSEMatrix=TRUE这个参数特意下载到你的目录的 expr_dat=read.table(“GSE26253_series_matrix.txt”,comment.char=”!”,stringsAsFactors=F) 这样读取也是一个数值矩阵 具体大家可以看这个包的说明书 #Download GDS file, put it in the current directory, and load it:gds858 <- getgeo('gds858',="" destdir='.' )如果使用了gsematrix="TRUE这个参数,那么除了下载soft文件,还有表达量矩阵文件,可以直接用read.table读取那个文件。#Or," open="" an="" existing="" gds="" file="" (even="" if="" its="" compressed):gds858="">-><- getgeo(filename='GDS858.soft.gz'>-> |
|
来自: zhuqiaoxiaoxue > 《生信》