分享

你是否真的了解PCA?

 生物_医药_科研 2018-11-17

PCA分析使用非常广泛,一直是个热门话题。介绍PCA的文章很多,无论原理、图形解读、绘制方法,应有尽有。它的使用范围也很广,转录组、群体进化、微生物生态、甚至金融、教育领域。


今天仅以微生物群落研究为出发点,简单介绍PCA分析与微生物物种多样性的关系。微生物群落研究中,正常的PCA图形是图1这样子的,一般用二维坐标展示,图形中样本是点,物种是箭头。


平常看到的很多PCA图没有箭头,是因为没有展示,但实际最原始的PCA图都带有箭头。这种图形又称为biplot图,意思是一个图形同时展示了物种和样本两种信息。


图1. 典型PCA图


主坐标(或主成分)


PCA很大的一个特征就是具有“主坐标”,这应该在大多数的解释中都有提及。什么是主坐标?这里举一个简单例子,如表1的物种x样本的丰度表格,包含S1-S6的6个样本点和A,B,C三个物种,其中S1、S2和S3是一个分组,其他三个样本是另外一个分组。


因为一般实验设计都是按照一定的性质来对样本进行分组,同一分组内的物种理论上会存在较相似的丰度模式,那么实际上就可以通过某些物种来判断样本之间的关系。通过表1我们可以发现,A、B两个物种在不同样本中丰度并不一样,而C是一样的,所以利用C,我们无法将样本区分,因此只有A、B适合用于区分样本。


但A和B两个在区分的程度上有所差别,A在所有样本中的跨度更大,而且呈现前三个样本和后三个样本分别聚集的趋势;B则是在所有样本中等差分布,因此A比B更有能区分样本分组。在这里, A更能解释样本分布规律,也就是“第一主坐标”,B是“第二主坐标”,C由于区分度最差,是“第三主坐标”。

 

表1 物种丰度表格


S1

S2

S3

S4

S5

S6

A

100

90

80

40

30

20

B

45

42

39

36

33

30

C

80

80

80

80

80

80

 

聚类


PCA的作用其实就是通过物种丰度模型,寻找样本的远近关系,目的让同一个分组的点在图形中更为靠近。怎么做到?再举一个简单例子。我们将上标数据利用omicshare工具绘制一个3D散点图看看,结果如图2。为方便解释,我顺便标注了A、B、C三个物种坐标轴和所有样本点。


从图中可以简单看到,通过三维空间发现,物种丰度模式越相似的点(如S1、S2、S3),在图形中靠的越近,形成“聚类”效果。那么,最极端的是,如果S1,S2,S3全都是A:100,B:45,C:80,那三个点就会完全重合!


图2.三维效果图


降维


降维,是PCA中提到最多的一个词。群落中被测到的微生物成千上百万,之前已经提到,一个物种是一个维度,那1000个物种就是个1000维的空间。我们正常人是无法识别和理解这么高维度的空间,这需要把高维度空间简化为三维甚至二维,让大家理解,降维就是如此产生。


降维的理解和实现,需要借助之前“主坐标”这个概念。我把图2的三维图分别投影在A、B、C坐标上,就是图3的效果。图3,本质就是三维降到一维,是比较简单的降维例子。降维之后,我们可以把A、B、C三个投影与原来图2的三维图进行比较发现,A轴上的点聚类模式最能还原原来三维图,C轴投影还原效果最差(简直就是误解!)。


原来降维是会有可能失真的!怎么办?联合主坐标的重要性可以发现,之前从数据表格看到A轴数据最有代表性,从降维图中A的效果也是最好,所以我们在降维的时候,必须要保证挑选的坐标轴是最有代表性的,那么图形失真的比例就自然减低。


图3. 降维效果图

 

坐标变换


这一部分应该是最难理解和解释,在这里不打算花太多篇幅去说明。上面降维提到,尽可能找到最有代表性的物种来作为坐标轴展示图形,以减少失真效果。但实际上,由于数据的复杂性,很难有一个“已知的物种”来直接用作坐标,这时候我们必须要“造”一个虚假的物种。


表1的A,B,C三个物种中恰好A物种很有代表性。但实际数据往往如表2,A、B、C都不是很适合用来做代表物种。非得降维,怎么办?在物种足够多的时候,空间维度也会很高,通过空间的不断投影和变换(这是我们无法理解的),我们就总会找到一个新的物种坐标A’、B’。


A‘和B’在算法上是通过其他物种分解合成而来的,它不存在,但它在作图上最有代表性。这类似于图4的投影,我们不断挪动灯泡位置,总能在白纸上发现一个最合理的点的投影。这时候白纸所在的坐标就是我们所提到的新合成的坐标。


表2. 物种丰度表


S1

S2

S3

S4

S5

S6

A

100

56

60

43

20

0

B

20

22

64

54

40

12

C

80

35

55

97

9

43

 

图4. 灯泡投影效果


实际应用


不可忽视一点就是,PCA在群落研究中的应用其实已经越来越少,主要是与它的线性模型有关,它会默认所有物种都是沿着环境梯度有线性的变化,但实际上这是不可能的(对线性的解释,有兴趣可自行搜索)。需要解决这个问题,就需要借助CA、PCoA等方法。


另外,由于PCA的线特质,会让它过分强调群落中优势物种的作用,这在稀有物种较多的样本(例如环境土壤样本),PCA的分析效果有可能会很差,这值得注意。

 


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多