蛋白质组学数据分析集锦

萌小芊 2018-02-06

展开全文

恰逢春节，辛苦一年拿到了海量数据，表面看上去收获满满，可怎么还是开心不起来呢。怎样在浩瀚的数据海洋里捕捉到梦寐以求的那条美人鱼？无问西东，搭乘美吉的巨轮，我们为您引航，助您完成心中的愿望。

那么，今天我们就来说一说蛋白质组学涉及到的生信分析。

认识你的样本

数据到手之后，我们第一步就是希望能够对数据有个大体的了解，包括组内样品均一性、组间样品差异性以及变化趋势情况，有哪些分析可以快速的将这些数据进行可视化呢？请往下看：

PCA分析（左），是一种非监督性的多元统计分析，将高维复杂的数据进行“简化和降维”，建立可靠的数学模型对研究对象的蛋白表达谱特点进行归纳和总结。从总体上反映各组样本之间的蛋白差异和组内样本之间的变异度大小。

相关性分析（右），是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。基于皮尔森相关系数，可以度量组内样品之间的关联程度，从而分析组内样品间的平行性。

火山图（左），将所有检测到的蛋白的差异显著性进行可视化展示，图中横坐标为蛋白在两个样本间差异的倍数变化值，即样本2的表达量除以样本1的表达量得到的数值，对此数值做了对数化处理；纵坐标为蛋白表达量变化差异的统计学t检验p值，p值越小则表达差异越显著。紫色点为显著差异的蛋白，黑色点为非显著差异蛋白；将所有蛋白映射上去之后，可以获知，在左边的点为表达差异下调的蛋白，右边的点为表达差异上调的蛋白，越靠左/右边和上边的点表达差异越显著。韦恩图（右），通过差异蛋白Venn 图可观察出差异蛋白在各对比组间的数量分布状况。每个颜色代表一组对比分析筛选出的差异代谢物。

Heatmap（左），可以将蛋白在各样品中的表达趋势进行可视化展示，并根据表达趋势进行聚类分析。图中每列表示一个样本，每行表示一个蛋白，图中的颜色表示蛋白在该组样本中相对表达量的大小，红色代表该蛋白在该样本中表达量较高，绿色代表表达量较低。左侧为蛋白聚类的树状图，两个蛋白分支离得越近，说明它们的表达量越接近；上方为样本聚类的树状图，两个样本分支离的越近，说明这两个样本所有蛋白的表达模式越接近，即蛋白表达量变化趋势越接近。 Cluster聚类（右），图中每一条线表示一个蛋白；每张图展示一种类型的表达模式，即体现这组蛋白表达量变化的趋势。

2走进你的样品

经过以上这些分析我们可以很直观的看出样本间的平行性，以及组间差异性，并且能够快速找到一些差异极其显著或者变化规律符合我们预期的蛋白。接下来的问题就是，我们怎么知道这些蛋白是否与我们的研究相关，或者说这些蛋白都执行哪些功能、怎样发挥作用的呢？

这就要用到接下来的分析：GO功能注释、KEGG注释以及KOG注释。

GO (Gene Ontology, http://www./) ，是基因本体论联合会建立的将全世界所有与基因有关的研究结果进行分类汇总的综合数据库，其目的在于标准化不同数据库中关于基因和基因产物的生物学术语，对基因和蛋白功能进行统一的限定和描述。利用 GO 数据库，可以将基因按照其参与的生物过程（Biological Process, BP）、细胞组分（Cellular Component, CC），分子功能（Molecular Function, MF）三个方面进行分类注释。因此，GO注释有助于了解蛋白所参与的生物学功能。

KEGG Pathway注释（左），在生物体内，基因产物并不是孤立存在发挥作用的，不同基因产物之间通过有序的相互协调来行使其具体的生物学功能。因此，KEGG数据库中丰富的通路信息将有助于我们从系统水平去了解蛋白的生物学功能，例如代谢途径、遗传信息传递以及细胞过程等一些复杂的生物功能。 COG注释（右），全称是Cluster of Orthologous Groups of proteins，由NCBI创建并维护的蛋白数据库，根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中，每一簇COG由直系同源序列构成，从而可以推测该序列的功能。COG分为两类，一类是原核生物的，另一类是真核生物。原核生物的一般称为COG数据库；真核生物的一般称为KOG数据库。

3终极大招大放送

我们可以通过蛋白所发挥的作用或者参与的通路，进一步筛选与我们的研究较为相关的蛋白进行后续的验证。如果无法根据这些结果确定研究方向，那我们还有大招，就是富集分析。富集分析方法通常是分析一组蛋白在某个功能节点上是否出现过，原理是由单个蛋白的注释分析发展为蛋白集合的注释分析。富集分析提高了研究的可靠性，能够识别出与生物现象最相关的生物学过程。