分享

微生物多样研究—16S rRNA基因功能代谢预测

 Mobio_Lab_Sun 2019-11-05

1. 16S rRNA基因功能代谢预测

  • 对于微生物生态学研究,我们最关注的无疑是菌群所具备的代谢功能。随着数据分析技术的发展,我们现在已能根据已知的微生物基因组数据,对菌群组成的测序数据(典型的如16SrRNA基因的测序结果)进行菌群代谢功能的预测,从而把物种的“身份” 和它们的“功能”对应起来。  

  • 根据菌群代谢功能预测结果,一方面能一窥菌群功能谱的概貌,发挥菌群多样性组成谱测序性价比高的优势;另一方面也能帮助指导后续宏基因组Denovo鸟枪法测序的实验设计,更合理地筛选用于后续研究的样本。

2.  PICRUSt功能预测分析

PICRUSt(PhylogeneticInvestigation of Communities by Reconstruction of Unobserved States)是由美国哈佛大学的CurtisHuttenhower课题组开发的菌群代谢功能预测工具,通过将现有的16SrRNA基因测序数据与代谢功能已知的微生物参考基因组数据库相对比,从而实现对细菌和古菌代谢功能的预测;预测过程中还考虑了不同物种16SrRNA基因拷贝数的差异,并对原始数据中的物种丰度数据进行校正,使预测结果更准确可靠。

分析的总体思路如下:

  • 先根据已测微生物基因组的16SrRNA基因全长序列,推断它们的共同祖先的基因功能谱;

  • 对Greengenes 16SrRNA基因全长序列数据库中其它未测物种的基因功能谱进行推断,构建古菌和细菌域全谱系的基因功能预测谱;

  • 将测序得到的16S rRNA基因序列数据与Greengenes数据库比对,寻找每一条测序序列的“参考序列最近邻居”,并归为参考OTU;

  • 根据“参考序列最近邻居”的rRNA基因拷贝数,对获得的OTU丰度矩阵进行校正;

  • 最后,将菌群组成数据“映射”到已知的基因功能谱数据库中,实现对菌群代谢功能的预测。

PICRUSt能将16SrRNA基因序列在3种功能谱数据库中进行预测,即KEGG、COG和Rfam。

KEGG数据库的核心为生物代谢通路分析数据库(KEGG PATHWAY Database,http://www./kegg/pathway.html),其中将代谢通路归为6大类:

  • 代谢(Metabolism)

  • 遗传信息处理(Genetic Information Processing)

  • 环境信息处理(Environmental InformationProcessing)

  • 细胞进程(Cellular Processes)

  • 生物体系统(Organismal Systems)

  • 人类疾病(Human Diseases)

每一类代谢通路又被进一步划分为多个等级。目前,第二等级一共包括45种代谢通路子功能,第三等级即对应代谢通路图,而第四等级则对应代谢通路上各个KO(KEGGorthologous groups,KEGG直系同源基因簇)的具体注释信息。

COG(Clustersof Orthologous Groups,https://www.ncbi.nlm./COG/)数据库是由NCBI维护的直系同源基因数据库,是指不同个体中由于物种形成(Speciation)的进化历程而产生的的同源基因,这些基因来源于共同祖先;因此,在进化历程中,直系同源基因通常都保留了相同或相似的功能特性。

根据PICRUSt的预测结果,可以获得每样本对应于各功能谱数据库的注释信息,以及预测得到的功能类群的丰度矩阵。

KEGG功能预测:

通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库比对,得到KEGGpathway 3个层级和丰度表。

COG功能预测:

通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库比对,得到COG orthology和function丰度表。

利用丰度表信息完成各类可视化结果展示。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多