今天是生信星球陪你的第581天 大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我! 花花写于2020-3-29 01.需求TCGA的RNA-seq数据使用的geneid是ensembl id,里面不仅有mRNA,也有非编码基因和其他类型。 02.思路1.找到TCGA数据对应的参考基因组版本。 03.动起来1.找参考基因组版本gdc首页的support about the data - GDC Reference Files 可以看到,使用的参考基因组版本是genecode的v22。(版本很多,这个是14年的版本了) 2.找区分类型的列在gtf文件里并不是直接分出了lncRNA,需要找gtf文件里对biotype的说明,不看不知道,一看发现这是一个很长的表格。 其中对lncRNA的说明是:
所以,将genetype里这些类型对应的行挑出来,就是lncRNA了。mRNA则相对简单,选出proteincoding 对应的行即可。 然后与表达矩阵行名进行匹配替换,就可以分别得到lncRNA和mRNA的矩阵了。 鼓励自己学习探索,思路有了,先试试能否自己做出来。 |
|