分享

我为什么不用ANOVA?

 育种数据分析 2021-11-18

小编推荐:

董八七是一个昵称, 他的简书上面有很多干货, 征得作者同意后, 我从网上copy到公众号平台. 文章最后点击阅读原文, 可以查看他的简书博客. 我对原文进行了一些修改.

1. 为什么不用ANOVA?

因为它局限!

ANOVA(Analysis of variance)是Fisher在1918年发明的一种方差分析方法。因为我们多数人在数理统计入门时重点学习过,所以最常使用。ANOVA有三大要求,使用前要逐一检验:

  1. 数据平衡(没有缺失值);

  2. 响应变量服从正态分布;

  3. 方差齐次(处理内不同水平的方差要相等;

编者著, 也有表示为: 独立性, 齐次性, 正态性. 独立性是指不同处理之间是独立的. 动植物育种中, 不独立可以定义关系, 比如系谱构成的A矩阵, 比如基因组构成的G矩阵, 这样可以解决不独立的问题.

一旦不满足条件需要:

  1. 填补缺失值;

  2. 转换以服从正态;

  3. 方差不齐怎么弄(就这么着吧)。

举例,下图中, 前3列是一个处理的3个水平,单独时都服从正态分布,但放在一起(第4列)就不是正态分布,方差不齐很常见,但一般线性模型中, 似乎没有合适的方法来解决。

如果方差分析的3个条件都满足,那么用ANOVA是没有问题的,得到的结果和混合线性模型的是一致的。这里我总结了ANOVA和线性模型的关系(图2)。ANOVA在最小枝,可见有多么局限。

从这张图中, 可以看到, 使用范围最广的是广义线性混合模型(GLMM), 广义线性模型(GLM)可以处理非正态数据, 混合线性模型(LMM)可以处理非齐次和非独立数据, GLM中的一般线性模型包括ANOVA.

2. 为什么要用混合线性模型?


下面说一下线性模型的相对优势,它是怎么解决ANOVA的3大局限的。线性模型一般写成这样:

是响应变量,是固定效应,是随机的随机效应和残差;X和Z是固定和随机效应的关联矩阵。

线性模型的条件是服从均值为0的正态分布。看见没,没有对有任何限制。针对ANOVA的第2条。


方差不齐怎么办?把效应结构化。什么意思呢?比如ANOVA要求水平1和水平2的方差相等:,如果不等的话就用一个对角矩阵

分别估计出每个水平的方差,这就是对效应的结构化。这样就解决了ANOVA的第3条限制。

这是解决了非齐次的问题, 如果可以定义处理间的关系, 比如通过系谱A矩阵, 基因组G矩阵, 那么也可以处理非独立的情况.

3, 哪些软件能拟合线性模型?

  • SAS

  • ASREML-R

  • R:

     nlme

  • R:

     lme4

如发现问题欢迎指正!


参考:许世忠教授的讲义。

生物统计:

主要包括试验设计,生物统计中的数据分析,育种中的数据分析,相关的文献解读。

1,用R语言生成增广试验设计

2,P-rep designs 文献解析及实现方法

3,RCBD和alpha-lattice试验效率比较

4,如何对增广试验数据进行分析

5,如何对数据进行汇总统计(R语言)

6,关于联合方差分析的讨论-1

7,农业统计分析系列1-软件包介绍

8,农业统计分析系列2-试验设计

9,Excel中的数据透视功能处理农业数据

10,进军机器学习--序言

11,  植物育种中GS是成熟的方法么?

12,  不同试验设计遗传力的计算方法

13,  农业大数据时代的几个案例

14,  农业试验中如何分析单因素方差分析

15,  P-rep designs 文献解析及实现方法

16,  文献阅读: 林木中遗传参数评估

17,  育种4.0世代的到来个人应该准备什么

18,  田间种植图的绘制方法

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多