分享

蛋白质组学数据分析集锦

 萌小芊 2018-02-06

       恰逢春节,辛苦一年拿到了海量数据,表面看上去收获满满,可怎么还是开心不起来。怎样在浩瀚的数据海洋里捕捉到梦寐以求的那条美人鱼?无问西东,搭乘美吉的巨轮,我们为您引航,完成心中愿望

       那么今天我们就来说一说蛋白质组涉及到的生信分析。


1

认识你的样本

      数据到手之后,我们第一步就是希望能够对数据有个大体的了解,包括组内样品均一性、组间样品差异性以及变化趋势情况,有哪些分析可以快速的将这些数据进行可视化呢?请往下看:



PCA分析(左)是一种非监督性的多元统计分析,将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的蛋白表达谱特点进行归纳和总结。从总体上反映各组样本之间的蛋白差异和组内样本之间的变异度大小。


相关性分析(右)是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。基于皮尔森相关系数,可以度量组内样品之间的关联程度,从而分析组内样品间的平行性。

   

火山图(左),将所有检测到的蛋白的差异显著性进行可视化展示,图中横坐标为蛋白在两个样本间差异的倍数变化值,即样本2的表达量除以样本1的表达量得到的数值,对此数值做了对数化处理;纵坐标为蛋白表达量变化差异的统计学t检验p值,p值越小则表达差异越显著。紫色点为显著差异的蛋白,黑色点为非显著差异蛋白;将所有蛋白映射上去之后,可以获知,在左边的点为表达差异下调的蛋白,右边的点为表达差异上调的蛋白,越靠左/右边和上边的点表达差异越显著。                                                                                           韦恩图(右)通过差异蛋白Venn 图可观察出差异蛋白在各对比组间的数量分布状况。每个颜色代表一组对比分析筛选出的差异代谢物。                                                                 

 Heatmap(左)可以将蛋白在各样品中的表达趋势进行可视化展示,并根据表达趋势进行聚类分析。图中每列表示一个样本,每行表示一个蛋白,图中的颜色表示蛋白在该组样本中相对表达量的大小,红色代表该蛋白在该样本中表达量较高,绿色代表表达量较低。左侧为蛋白聚类的树状图,两个蛋白分支离得越近,说明它们的表达量越接近;上方为样本聚类的树状图,两个样本分支离的越近,说明这两个样本所有蛋白的表达模式越接近,即蛋白表达量变化趋势越接近。                                                                                             Cluster聚类(右)图中每一条线表示一个蛋白;每张图展示一种类型的表达模式,即体现这组蛋白表达量变化的趋势。                                                                                                                                  

2走进你的样品

       经过以上这些分析我们可以很直观的看出样本间的平行性,以及组间差异性,并且能够快速找到一些差异极其显著或者变化规律符合我们预期的蛋白。接下来的问题就是,我们怎么知道这些蛋白是否与我们的研究相关,或者说这些蛋白都执行哪些功能、怎样发挥作用的呢?

      这就要用到接下来的分析:GO功能注释、KEGG注释以及KOG注释。


GO (Gene Ontology, http://www./) 是基因本体论联合会建立的将全世界所有与基因有关的研究结果进行分类汇总的综合数据库,其目的在于标准化不同数据库中关于基因和基因产物的生物学术语,对基因和蛋白功能进行统一的限定和描述。利用 GO 数据库,可以将基因按照其参与的生物过程(Biological Process, BP)、细胞组分(Cellular Component, CC),分子功能(Molecular Function, MF)三个方面进行分类注释。因此,GO注释有助于了解蛋白所参与的生物学功能。          


KEGG Pathway注释(左)在生物体内,基因产物并不是孤立存在发挥作用的,不同基因产物之间通过有序的相互协调来行使其具体的生物学功能。因此,KEGG数据库中丰富的通路信息将有助于我们从系统水平去了解蛋白的生物学功能,例如代谢途径、遗传信息传递以及细胞过程等一些复杂的生物功能。         COG注释(右)全称是Cluster of Orthologous Groups of proteins,由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。                                                                                                                                                       

3终极大招大放送

       我们可以通过蛋白所发挥的作用或者参与的通路,进一步筛选与我们的研究较为相关的蛋白进行后续的验证。如果无法根据这些结果确定研究方向,那我们还有大招,就是富集分析。富集分析方法通常是分析一组蛋白在某个功能节点上是否出现过,原理是由单个蛋白的注释分析发展为蛋白集合的注释分析。富集分析提高了研究的可靠性,能够识别出与生物现象最相关的生物学过程。



GO富集可以找到与生物现象最相关的生物功能,绘制成柱形图、网络图(左)。挑选数目最多,富集最为显著的通路进行后续的验证及深入研究。                                             

KEGG富集可以找到与生物现象最相关的代谢通路,绘制成柱形图(左)或者气泡图(右)。挑选数目最多,富集最为显著的通路进行后续的验证及深入研究。                                                                                                此外,通过蛋白互作网络分析,我们还可以进一步了解目标蛋白之间的互作关系,为我们进一步的机制研究提供参考(如下图)。                                                                  

 经过以上的介绍,是不是对数据分析已经有一些眉目了?以上分析内容,美吉蛋白与代谢生信部都可以为您实现,有需要的话不要忘记找小美哦。顺便偷偷爆个料,小美的蛋白质组学及代谢组学的生信分析云平台马上就要上线了哦,以上这些图片,今后都能自己亲手绘制啦,听起来是不是很激动。

想要了解更多内容,请随时关注美吉生物公众号。


                        蛋白与代谢事业部       文案|王晓庆


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多