分享

生态统计学里的数据转化与标准化

 生物_医药_科研 2019-01-01

写在前面:

我们组去年发表的一篇文章,很幸运的得到了国内同行的指点” 。仔细阅读檄文以后,深感统计学的思维和理念在生态学里的重要性,而写文章的同行跟我们的理解可能存在出入。认真回复的过程中,对于统计学有了更深入的一点认识,感谢同行。为帮助记忆,在此稍作整理和记录,以自勉。也希望能够稍微助力统计学入门的小伙伴们。有不当之处,更希望精通统计学的小伙伴们多多指正。


文献里经常会看到,对环境因子做log(x+1)转化,或者对丰度数据做了平方根(square root)转化。做这些转化主要有如下几个目的:提高不同单位变量的可比性;提高变量的正态性和方差齐性;变非线性关系为线性关系;改变变量或者对象的权重等。之所以要考虑这些,是因为很多分析方法,尤其是基于线性相关的分析方法,希望数据有比较好的正态分布(图1左)。但是,实际上,很多数据不一定符合正态分布,而经过一定的转化,比如log转化以后的数值,可能就接近于正态分布,也就是所谓的log正态(图1右,转化后可变为正态分布)。

1. 左侧为正态分布,右侧为log正态分布

数据转化是针对数值本身的一个处理,而标准化则是针对数值之间的处理。标准化相当于将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。

数据转化的方法非常多,常用的主要有三种,分别是log转化、平方根转化和弦转化。log转化应该是目前使用最多的,计算方式为x’=log(x+c)x为原始值,x’为转化后的值,c为添加的常数。log转化可以以10为底数或者以e为底数。理论上,两种方式得到的统计结果应该是一致的。有时候,原始数据是负值或者零,这时候就需要加入常数c。常数的选择目前并没有绝对统一的标准,但每个领域有各自常用的值。比如,生态学的环境因子处理中,常用的值为1。而其他领域也有用0.00010.0011050,等等(图2)。实际上,常数c的选择对结果影响还是很大的(可以通过一定的计算来筛选最佳c值,图3)。但是,如果实在不会算,或者不想算的话,别人用啥,你就用啥,一般不会错。平方根转化,主要用于计数数据。而弦转化则主要用于比例数据,01之间。具体内容,感兴趣的小伙伴们可以在网上自行搜索更多内容。至于,具体如何选择合适的转化方法,《Handbook of Biological Statistics》中给出的建议是:如果数据量足够大,可以比较若干种转化方法,结果正态性比较好的那个,可能比较合适;数据量很小,就老老实实按照前人推荐的方法来做吧

2. 不同c值的结果比较

3. 最佳c值的筛选

数据标准化的方法也非常多,常见的两种归一化处理方法是离差标准化 (min-max normalization)和标准差标准化 (zero-mean normalization)。前者是对原始数据进行线性变换,使结果落到01区间内。计算方法,x’ = (x-min)/(max-min)。后者 (z-score转化) 则是将数据处理成为正态分布,即均值为0,标准差为1。计算方法,x’ = (x-u)/σ,其中u为所有样本数据的均值,σ为所有样本数据的标准差。z-score转化在生态学相关的文献里经常会见到(图4)。


4. z-score转化后的热度图

参考文献:

Borcard, D., Gillet, F., Legendre, P. (2011). Numerical Ecology with R. Springer.

Ekwaru, J. P., Veugelers, P. J.(2018). The overlooked importance of constants added in log transformation of independent variables with zero values: A proposed approach for determining an optimal constant. Statistics in Biopharmaceutical Research, 10(1), 26-29.

Filzmoser, P., Hron, K., Reimann,C. (2009). Univariate statistical analysis of environmental (compositional) data: problems and possibilities. Science of the Total Environment, 407(23), 6100-6108.

Limpert, E., Stahel, W. A., Abbt, M. (2001). Log-normal distributions across the sciences: keys and clues.AIBS Bulletin, 51(5), 341-352.

McDonald, J. H. (2014). Handbook of biological statistics (3rd edition). Baltimore, MD: Sparky House Publishing.

O’hara, R.B., Kotze, D. J. (2010). Do not log-transform count data. Methods in Ecology and Evolution, 1(2), 118-122.

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多