TCGA是个热门的数据库,lncRNA是个热门的研究方向,怎么样才能简单快速的从TCGA中得到lncRNA的表达数据? 今天就来跟大家分享一个基于TCGA、CCLE等其他数据库进行lncRNA识别与整理,可免费在线分析及数据下载等功能强大的数据库-TRANIC! TANRIC is an open-access resource for interactive exploration of lncRNAs in cancer. It characterizes the expression profiles of lncRNAs in large patient cohorts including TCGA, CCLE and other independent datasets. 官方主页: http://ibl./tanric/_design/basic/index.html 最新版本为2015/04/16 - Version 1.0.6 released. TRANIC主体框架: https://bioinformatics./main/TANRIC:Overview http://cancerres./content/75/18/3728 比较关键的一点是关于lncRNA识别及表达定量,我们直接看官方的描述: GENCODE数据库,TRANIC使用的是v19版本,可下载: ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_19/gencode.v19.long_noncoding_RNAs.gtf.gz TRANIC收录的数据展示(部分): http://ibl./tanric/_design/basic/summary.html 数据可在线免费下载,链接: http://ibl./tanric/_design/basic/download.html 以TCGA-COAD为例,下载得到压缩文件TCGA-COAD-rnaexpr.zip,解压可见数据描述信息TCGA-COAD-rnaexpr-META.tsv及表达谱文件TCGA-COAD-rnaexpr.tsv,格式如下: 第一列可见,共计12727个lncNRA在COAD患者中的表达数据。 基于TANRIC数据库进行lncRNA研究的文章也比较多,举个例子以作参考: 对于没有权限下载到TCGA原始数据,或者不知道如何从TCGA中提取并整理lncRNA表达数据的小伙伴来说,TANRIC是个不错的选择,因为下载下来的即整理好的表达矩阵格式!但是,TRANIC数据库中来源于TCGA的只有20种癌型,且数据较早期(最新2015/04/16)所以包含的样本量也远少于目前TCGA中收录的数据,且多数癌型并无正常配对样本。 |
|