分享

数据挖掘专题 | TCGA中的lncRNA之TANRIC数据库

 九色枫林 2018-04-17


TCGA是个热门的数据库,lncRNA是个热门的研究方向,怎么样才能简单快速的从TCGA中得到lncRNA的表达数据?


今天就来跟大家分享一个基于TCGA、CCLE等其他数据库进行lncRNA识别与整理,可免费在线分析及数据下载等功能强大的数据库-TRANIC!


TANRIC is an open-access resource for interactive exploration of lncRNAs in cancer. It characterizes the expression profiles of lncRNAs in large patient cohorts including TCGA, CCLE and other independent datasets.


官方主页:

http://ibl./tanric/_design/basic/index.html

最新版本为2015/04/16 - Version 1.0.6 released.


TRANIC主体框架:

https://bioinformatics./main/TANRIC:Overview

http://cancerres./content/75/18/3728



比较关键的一点是关于lncRNA识别及表达定量,我们直接看官方的描述:



GENCODE数据库,TRANIC使用的是v19版本,可下载:

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_19/gencode.v19.long_noncoding_RNAs.gtf.gz


TRANIC收录的数据展示(部分):


http://ibl./tanric/_design/basic/summary.html


数据可在线免费下载,链接:

http://ibl./tanric/_design/basic/download.html

以TCGA-COAD为例,下载得到压缩文件TCGA-COAD-rnaexpr.zip,解压可见数据描述信息TCGA-COAD-rnaexpr-META.tsv及表达谱文件TCGA-COAD-rnaexpr.tsv,格式如下:


第一列可见,共计12727个lncNRA在COAD患者中的表达数据。


基于TANRIC数据库进行lncRNA研究的文章也比较多,举个例子以作参考:



对于没有权限下载到TCGA原始数据,或者不知道如何从TCGA中提取并整理lncRNA表达数据的小伙伴来说,TANRIC是个不错的选择,因为下载下来的即整理好的表达矩阵格式!但是,TRANIC数据库中来源于TCGA的只有20种癌型,且数据较早期(最新2015/04/16)所以包含的样本量也远少于目前TCGA中收录的数据,且多数癌型并无正常配对样本。 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多