写在前面Emm....最近确实是忙到晕头转向,所以一直没有继续写。今晚似乎还有大半个小时的时间,便尝试写写。这篇推文应是 《-零命令行-生信下游数据分析》的第五贴,主题定为基于gff3/gtf从基因组序列中批量调取序列。
而利用这些数据的其中一个常见的热点就是,序列的提取。主要原因是:
这个时候,就需要自己进行序列提取 正文这篇推文主要讲三个模式,分别对应三种的需求。当然,任何工具都像一口锅,任何人能介绍的最多是这口锅可能能拿来烧这道菜那道菜,但不代表你不能拿这个锅来煮面条,或者是蒸鱼。
提取所有基因的CDS需要做的事情很简单,
大概十几秒钟后,之所以这么慢,是因为这需要建立一下fasta索引,后续就快了,提取完成,可以直接将cds.fa拖入到TBtools的Fasta stater快速统计序列概况,提取出来35386个cds序列(这肯定是包括了可变剪切) 大致看下序列文件情况 提起所有基因的ATG上游2000bp(所谓的启动子序列)有时候,我们会将基因的ATG上游2000bp定位基因的启动子序列(当然其实这个是不严谨的,只是没办法) 点击Start之后,几秒钟即可提取结束,因为fasta索引之前已经建立好了 所以,很多人纠结了很久的基因组已知,如何获取某个基因的启动子序列,就这么简单。。。 只提取基因的CDS上游2000bp上述我们提取之后,还保留了CDS序列,但是有时候我们并不需要,此时,只需要做一个小的修改即可 这个时候,提取出来的,就只有2000bp的序列。。。 写在最后其实,CDS只是一个操作,如果基因组注释文件中有UTR,你也可以提取UTR上游2000bp,或者1000bp,或者100bp... 功能有太多,写是写不完了
|
|