TCGAbiolinks是一个分析处理TCGA数据的R包,通过GDC API来查询和下载TCGA的数据,同时提供了差异分析,生存分析,富集分析等常见的分析功能,网址如下
这个R包的基本用法如下 1. Query和在线查询类似,只不过是将网页上的各种可选的属性变成了对应的参数,基本用法如下所示 以
以上参数和和网页上的的各项选择菜单相对应,示意如下 除此之外,还有几个重要参数, 查询结果的基本单位为Files, 可以通过以下代码进行查看 datatable(getResults(query)) 结果是一个html的表格,通过网页进行查看,每行代表一个表格,示意如下 2. Download除了查看检索结果外,还可以下载检索结果,用法如下 这里分成了两个步骤,第一步从GDC下载原始数据,可以使用API或者gdc-clinet进行下载, API的速度相对快一点;第二步对原始数据的结果进行整理,从GDC下载的原始数据是每个文件单独分开的,需要先对结果进行整理,才可以用于后续分析。以表达谱数据为例,需要进行样本的合并,样本ID的转换等,所有这些都可以通过 整理好的结果存放在 结果示意如下 表达量矩阵的信息查看方式如下 结果示意如下 数据下载并整理好之后,就可以进行分析了。不同类型的数据对应的分析方法也不同,具体的分析方法请参考官方文档。 ·end· |
|