今天是生信星球陪你的第251天 大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~ 就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~ 这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
背景得到一个基因集以后,需要知道基因有哪些功能,参与哪些生物过程,只有理解了基因的功能以后,才能联系起来基因型与表型。 继人类基因组计划(HGP)完成以后,找到了2万多个编码蛋白基因,但是基因功能还未知,然后又有了ENCODE(Encyclopedia of DNA Elements)计划,找到了400万个基因开关,平均一个基因有约200个开关,这是人类既有共性又有个性的基础。ENCODE计划使人类基因组不再是个”空壳“ 关于ENCODE计划:https:///science/pq2nx8.html
功能注释应用场景
原理基因不同于蛋白,不能通过结构来预测功能,只能通过与已知基因功能数据库的比对去推测。一般的数据库包括了两部分内容:一是基因序列(核酸+氨基酸)FASTA格式;二是基因功能信息(可以写到FASTA的ID行中或者单独放在一个文件中) 一般采用氨基酸序列与数据库进行相似性比对,比对结果去数据库中进行过滤
比对的结果并不是百分之百完全比对的,那么怎么判断氨基酸序列和数据库的关系呢?比对到多少才能被接受?这里需要考虑比对长度、比对分值、identity值等,过滤掉一部分人为认定不满足同源关系的序列。但是又有一个问题,不同区域的基因会发生不同程度的突变,如果仅设置一个值进行过滤——”一刀切“,这个结果还是有待优化 另外,如果结果提示: 基本流程如果手头仅仅有几条蛋白序列想做下功能注释,那么直接甩给uniprot/ncbi在线blast比对就可以了,但是我们这里说的情况是成千上万条基因,肯定不能在线提交,那么怎么办? 要进行大量蛋白序列的功能注释,需要包括:同源注释、功能分类 同源注释
功能分类只了解单个基因的功能是不够的,因为基因间是相互作用、协同完成生物功能的,所有需要进行分类,这就是在RNA-seq中得到差异表达基因后做的功能分类(GO)和富集分析(KEGG)过程,看看基因是不是协同完成某一个生物过程,它的原理与功能注释相似,也是利用已有的分类去推测未知的分类
例如COG数据库(Cluster of Orthologous Groups of proteins, https://www.ncbi.nlm./COG/)是细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类得来的。
# 下载数据库数据 参考:http://yk./myblog/cog%E5%88%86%E6%9E%90/ 又例如GO数据库 ,其中每个注释都是对基因产物的描述,有特定的分子功能(MF),涉及到特定的生物过程(BP),作用在特定的细胞组分(CC)。它把所有候选的靶基因向GO的各个term进行映射,然后计算映射到每个term的靶基因数量,在整个参考基因背景中利用超几何分布检验,选出候选靶标基因中显著富集的GOterm 再例如KEGG数据库,关于生物化学途径的描述,许多活细胞的功能不能仅仅依赖于单个基因,它将基因组信息与更高一级的功能信息结合;另外它可以将基因组中的许多基因利用细胞内分子互作网络联系起来,通过通路或者复合物来展示更高级的生物学功能
|
|