今天是生信星球陪你的第249天 大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
认知的进化首先对于生物这个词汇,我们的认知水平是在不断刷新的,从开始的生态学角度了解生物的形态结构、种群群落组成到生物的生理生化过程研究(例如物质代谢、能量流动),有了基因组后,我们就可以从基因组层面上对基因功能进行注释,然后比较不同生物的基因组差异,看看哪些生物的基因组特征值得被研究。总而言之,我们想搞明白我们从哪里来,能到哪里去。 基因组层面能分析些啥这么高大上的词汇背后肯定有大量的分析要点,否则不用这么费时费力去取样、测序。另外,不管使用什么测序手段(Illumina、PacBio、IonTorrent等),最后得到的结果用处都差不多,大体上分为:结构基因组学、功能基因组学、比较基因组学(来自百度百科),感觉这么说还是不太明白。 想想我们做基因组不还是为了更好地去了解这个物种吗?
基因预测一般有两种方法:
两种方法比较从头预测:不需要同源参考基因序列,直接可以进行预测,适用于新发现的物种(因为没有足够的已知信息,因此需要先构建训练集【训练集:软件先对基因组的特征做一个调查了解】) 序列比对:找的基因是已知发表过的,结果更加准确,但是毕竟是近缘物种,不可能序列区域一致,因此可能同源区不含有某个基因或者有一段非同源区域恰好含有特征基因,这样就会漏掉一些 开放阅读框(Open reading frame,ORF)从5'端开始翻译的其实密码子(ATG)到终止密码子(TTA、TAG、TGA)的蛋白编码序列。预测之前我们是不知道DNA双链中的哪一条链是编码链,也不清楚准确的翻译起始位置,但是知道的是:正负两条链每条都有三种可能的ORF,两条链共6种。于是我们就是利用这6种可能的ORF找到一个正确的,然后根据这个ORF得到氨基酸序列,最后预测出来蛋白产物
原核生物-软件基于HMM(隐马可夫模型)glimmer3:https://ccb./software/glimmer/ Prodical:https://github.com/hyattpd/Prodigal GeneMark:http://exon./GeneMark/ 相对简单,用自身的基因组作训练集即可 根据不同的物种,选择适合的密码子表 真核生物-软件复杂的地方在于:ORF不仅包含编码蛋白的外显子(exon)还有内含子(intron),内含子将ORF分割成许多个小片段,导致ORF的长度变化范围很大。但是, 真核生物的外显子与内含子连接基本满足GT-AG规律(即:内含子序列的5’端起始的两个核苷酸总是GT,3‘端最后的两个核苷酸总是AG, 利用Augustus(http://augustus./) 包括人、大型哺乳动物、植物、鸟类、真菌基因组等 训练集:http://augustus./datasets/ 除了基因预测,还可以用于从头预测,加入cDNA和EST序列,辅助提高预测准确度
|
|