搜索

分享

QQ空间 QQ好友新浪微博微信

数据挖掘专题 | TCGA-lncRNA数据整理全攻略

unicheng 2018-06-04

展开全文

### RNA表达数据

在TCGA改版之前，从TCGA中下载并整理好的RNASeqV2数据，或者改版后从GDC Legacy Archive中下载的RNA数据，其格式如下：

第一列Symbol，共计20502个基因，其中包含了mRNA和lncRNA，基于文件中的Gene Symbol虽然可以提取lncRNA，但是数目较少（可能就几十或者几百个！）

而从GDC Data Portal上下载（即官网直接下载）的RNA表达数据（经重新比对定量，且基因名称全部换成了Ensembl ID），内容如下：

第一列Ensembl ID，共计60483个基因（接近GDC Legacy Archive上的3倍），其中也包含了mRNA和lncRNA，而lncRNA的数目在10000+，所以如果想基于TCGA进行lncRNA数据的分析，使用GDC Data Portal上的数据是个不错的选择，现在问题就变成了如何从一列Ensembl ID中识别lncRNA。

### 注释数据

1、我们在之前的文章TCGA-RNA数据下载全攻略中已经讲到过，GDC Data Portal中RNA的注释数据库是GENCODE：

https://docs.gdc./Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/

而通过GENCODE数据库注释文件中的 biotype 可以得知每个基因是否属于lncRNA，而具体哪些注释算作lncRNA呢？

先来几篇文献参考一下：

A、6类：lincRNA、processed_transcript、sense_intronic、sense_overlapping、antisense、3prime_overlapping_ncrna：

B、6类：lincRNA、antisense、sense_intronic、sense_overlapping、processed_transcript、processed_pseudogene：

C、8类：non-coding、3-prime overlapping ncrna、antisense、bidirectional promoter lncRNA、lincRNA、macro lncRNA、sense intronic、sense overlapping

随机检索了几篇可见，不仅用的GENCODE数据库版本不一致(v17~v27基本上均有人使用)，针对lncRNA的提取标准也不一样(有的纳入的biotype种类多，有的少)...

2、GENCODE中也提供了整理好的lncRNA专属信息：

ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_27/gencode.v27.long_noncoding_RNAs.gtf.gz

其中，收录了属于lncRNA的10种基因：

3、TCGA中的lncRNA之TANRIC数据库

4、LNCipedia

https:///

…

所以，提取lncRNA的方法五花八门，因为理论上来讲，只要有lncRNA注释信息的数据库都可以用于提取lncRNA数据！

### GENCODE lncRNA

我们此处仅以上示第二种提取方法为例，讲解如何从TCGA中筛选得到lncRNA表达数据：

gencode.v27.long_noncoding_RNAs.gtf文件格式如下：

比较关键的gene_id、gene_type、gene_name，对于这三列信息的提取，如果在命令行中使用awk可参考：

https://www./p/77347/

下面重点讲解基于R语言的解决方案：

# 安装rtracklayer包

# https:///packages/release/bioc/html/rtracklayer.html

source('http:///biocLite.R')

biocLite('rtracklayer')

# 使用

library(rtracklayer)

AnnoData = import('gencode.v27.long_noncoding_RNAs.gtf')

将3列信息单独提出来：

index = which(AnnoData$type == 'gene')

Target = data.frame(Ensembl_ID = AnnoData$gene_id[index], Symbol = AnnoData$gene_name[index], Biotype = AnnoData$gene_type[index])

共计15778个lncRNA，在与RNA数据取lncRNA交集之前需要先把Ensembl_ID中的版本号去除掉：

Target$Ensembl_ID = gsub('\\..*', '', Target$Ensembl_ID)

最终格式如下：

然后与TCGA-RNA数据中的Ensembl ID（同样要去除版本号）取交集:

结合之前文章 GDC：我们不一样！中的表达数据

common = intersect(Target$Ensembl_ID, rownames(D_coad))

D_coad_Hiseq_exp = D_coad[common, intersect(D_coad_samples, LH_coad_samples)]

最终共得到15329个lncRNA在323个COAD(Hiseq)样本中的表达值！

至此，关于如何从TCGA中下载并整理lncRNA数据已经讲解完毕，如果小伙伴们有什么问题、意见和建议请指教👇👇👇

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： unicheng > 《lncRNA》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

unicheng

关注对话

TA的最新馆藏

学会了GEO的数据处理，又能怎样？
详谈EnhancerDB数据库
画一个火山图
画一张热图
Limma求差异基因构建矩阵的两种方式
skr！GEO芯片数据的探针ID转换

喜欢该文的人也喜欢更多

热门阅读换一换