搜索

分享

QQ空间 QQ好友新浪微博微信

从TCGA表达矩阵中分别提取mRNA和lncRNA

生物_医药_科研 2020-04-02

展开全文

今天是生信星球陪你的第581天

大神一句话，菜鸟跑半年。我不是大神，但我可以缩短你走弯路的半年~

就像歌儿唱的那样，如果你不知道该往哪儿走，就留在这学点生信好不好~

这里有豆豆和花花的学习历程，从新手到进阶，生信路上有你有我！

花花写于2020-3-29

01.需求

TCGA的RNA-seq数据使用的geneid是ensembl id，里面不仅有mRNA，也有非编码基因和其他类型。
所以，如何从TCGA得到的表达矩阵中分别提取出mRNA和lncRNA的表达量呢？

02.思路

1.找到TCGA数据对应的参考基因组版本。
2.下载该版本的参考基因组注释文件，找到mRNA和lncRNA对应的ensembl id
3.在表达矩阵中筛选。

03.动起来

1.找参考基因组版本

gdc首页的support

about the data - GDC Reference Files

可以看到，使用的参考基因组版本是genecode的v22。（版本很多，这个是14年的版本了）

2.找区分类型的列

在gtf文件里并不是直接分出了lncRNA，需要找gtf文件里对biotype的说明，不看不知道，一看发现这是一个很长的表格。

其中对lncRNA的说明是：

Generic long non-coding RNA biotype that replaced the following biotypes: 3prime_overlapping_ncRNA, antisense, bidirectional_promoter_lncRNA, lincRNA, macro_lncRNA, non_coding, processed_transcript, sense_intronic and sense_overlapping.

所以，将genetype里这些类型对应的行挑出来，就是lncRNA了。mRNA则相对简单，选出proteincoding 对应的行即可。

然后与表达矩阵行名进行匹配替换，就可以分别得到lncRNA和mRNA的矩阵了。

鼓励自己学习探索，思路有了，先试试能否自己做出来。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：生物_医药_科研 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

生物_医药_科研

关注对话

TA的最新馆藏

国产第2款MET抑制剂获批，盘点30亿级赛道的入局者和新机会
黑色素瘤一线治疗又添新方案！FDA批准首个免疫+双靶向疗法用于BRAFV600突变晚期黑色素瘤
国际视野丨胆道恶性肿瘤的靶点及耐药机制
恒瑞创新药卡瑞利珠单抗联合阿帕替尼非小细胞肺癌研究发表于JTO
17 款四代靶向药，全面攻坚 EGFR 耐药
最全整理汇总：HER2阳性乳腺癌靶向治疗研究进展

喜欢该文的人也喜欢更多

热门阅读换一换