方差分析的提出者 在后面的白话之前,先怀着无比崇敬的心情缅怀英国著名的统计学家罗纳德.费舍尔。费舍尔(1890~1962),生于伦敦。英国统计与遗传学家现代统计学的 奠基人之一。著名的统计分析方法变异数分析(Analysis of Variance,简称ANOVA,也称为方差分析)是费舍尔提出的。。 变异问题的客观存在 我们针对某些东西的特性进行测量,获得的一组数据,其中有大有小,参差不齐的。如果我们多次测量相似的东西,获得多组数据,这些组数据的每一组的平均值也几乎不相同。比如:我们从一块玉米地里面抽出一些玉米穗来测量重量,每一穗重量不太一样,有轻有重;从另外一块玉米地抽一些玉米穗称重,平均每一穗的重量与前面抽的玉米地的玉米穗重量又有不同,其他指标也一样,比如玉米穗的长度也如此,总是存在变异。 先从一组数据简单地思考如何衡量变异情况。比如我抽样测量一个农户卖给我的玉米穗的重量,得到一组数据,我从哪里知道这些玉米的重量让我们满意与否? 反正农户要的玉米穗的价格是定了的。摘到的玉米穗大一点,我好卖出去,穗小的话,我不好卖出去。我得掂量整堆玉米的整体情况怎么样啊J 首先,可能想到的是:用称量得到的此组数据(重量)中的每一个数据减去这组数据的平均值,得到差值,看这个差值得的大小。如果差值很大,我倾向认为这穗玉米重量与平均重量差距大,反之,我倾向于认为这穗玉米与平均重量差距小,这是一个很朴素的思想,跟我个人是一样的J
我们容易想到,把这些数据与平均值的差值加起来,就是它不就是一个值了吗?我又得考虑了:这些玉米穗,大大小小的,每穗重量跟平均值相加减之后的差值再加起来,结果就可以知道这组玉米重量的变异情况?慢着,差值有正,有负的,相加有可能结果等于0的。这意味着这堆玉米各自之间没有变异?明摆着跟实际称量所得数据矛盾啊!这样把数据与均值之间的差值加起来,也不能反映变异情况呀。 那咋整呢? 为了整到一个指标来反映变异情况,接着前面提到的差值相加的办法,需要解决差值相加后正负值相互抵消结果等于0的问题,那计算差值之后: 这指标如何?想想还有点不对劲。如果我用这样的办法去算农户卖给我得一大堆玉米,把数据与均值之差再平方,然后累加一大串,得到的数据不是很大吗?然后我给卖玉米的农户说:“大爷,你的玉米穗,我算了,得到结果告诉我数据变异太大了。。。”,可能还没等我说完,大爷的扁担已经横扫过来了。可能人家的玉米一穗穗的重量差不多,相差好小,我称好多穗,得到数据按照前面说的计算了,加起来之后,得到的总和的值很 那接下来怎么弄? 抽多少穗玉米去称,得到多少个数值,把前面的和,除以数据的个数,不就OK了吗?变成这样, 。这是什么呀?就是说,对于每个数据(每一穗玉米重量)而言,变异就有这么大。这样一来,就把用一个指标衡量一组数据变异情况受到观测数据个数影响的问题消除了。 可上面所算得到的结果,也就是针对所测得的样本的数据来说罢了。可我们是想用样本来推测整体啊。所以,这里,通常在计算上面的指标时,习惯上这样做:,它对应的是总体,是无偏估计。这个指标就叫做方差,在方差分析当中叫做均方,用MS表示。而式子当中的分母n-1叫做自由度, 分子这一块叫做离差平方和,顾名思义,它是每个测量值与的差值的平方和。习惯上用SS表示。 以上,我们了解了什么是方差了,它可以衡量数据变异的情况。这回不再仅仅看一组数据的变异了,看多组数据的比较了。那变异从何而来,变异来源对变异的影响又怎么计算呢? 还是用实例来说吧。我从三个农户的那里买来三堆玉米,从各堆玉米中各抽取12穗来称重。我想知道他们三家的玉米重量是否有很大差异。李大叔家玉米那么小,总要我高价,还强着要我收下小穗的呢,不让他看看别人的,他一直好意思的,嘿嘿。。。高叔家的玉米真的好大,他都不要高价J 我可是随机抽样本的,各家12穗玉米称量后,数据如下表1: 表1 三家玉米穗重数据 在没有明确三家的玉米重量是否有差异之前,我当他们的玉米的平均重量没有差别。 计算到这里,总的变异还未考虑到处理的问题(还没有考虑分组的情况),个体差异的问题。因为是把36个数据混到一起了不管分多少组(多少家),每组(家)抽多少个样本等,这些因素还没有考虑呢。其仅说明36个数据客观存在那么大的变异。到底变异来自哪?还需要把总的变异分解成两部分,一部分是用某一个因素的作用去加以解释,另一部分变异是随机误差。这三个变异有一种关系,即线性关系,可加性。总的离差平方和=组间离差平方和+组内的离差平方和。接着就看组间的变异了。 1) 各家的玉米穗重量的平均及组间(水平项)离差平方和: 所谓组间的变异呢,这里三家,算是三个组了,计算每一组的均值,可以看出每一组的均值也不相等,参差不齐的,也不等于总的均值。即:三组的均值也存在变异,这个变异怎么衡量呢?用每一组的均值减去总均值求出差值,平方之后,再把3个平方和的值加总。注:求组间的变异,需要乘以该组的样本个数。如果组间的变异较大,那么它反映了不同组之间的差异对结果有影响。
2) 组内(误差)离差平方和: 所谓组内的变异,就是反映不同观测值(个体)之间的差异。同一组(家)的12个数值,算是接受某一种相同处理的,按道理,处理一样,测量得到的值应该一样的,但是,现实测量得到的数值不一样。为何?一是个体之间存在差异,二是测量误差的问题,三是抽样误差。36个数值是总体的随机样本,这次抽样是这样的数值,再次去抽样,会是不同的一组数值了,差异也不一样。
先计算三家的样本与各自均值的差值的平方和,然后将三家的差值平方和加总。
3) 计算SSA,SSE的均方,对离差平方和和自由度进行分解: 4) 如果说各组样本来自于同一总体,即各组间无差别,那么组间,组内的差异都应该是只反映随机误差。也就是说:不同组(处理)对结果没有影响。分解出来的组间,组内的变异,应该都是随机误差。此时的组间均方与组内均方的比值: F=MS组间/MS组内应接近于1. 实例当中F=MS组间/MS组内=3136.58/646.41=4.85 7)进行统计决策 将计算所得的F与给定显著水平的临界值的进行比较。 假定取显著水平=0.05,根据分子自由度df1=k-1=3-1=2,分母自由度df2=n-k=36-3=33,查找F分布表临界值F0.05(2,33)=3.28,F=4.85>,拒绝原假设,即拒绝三家玉米重量的均值相等的假设。接受H1,认为三家玉米的重量的均值之间有明显差异,至少有一家与其他的不一相等。
5) F检验是对总体进行了检验,既然分析结果得出结论是有均值不相等的情况,那谁与谁的均值不相等呢?各家的平均值都不相等吗?还是仅有个别的均值有显著差异呢?比较两两之间的差异,看差异在谁之间。比如实例当中,李叔家与高叔家,李叔与赵叔家,高叔家与赵叔家之间,谁家的玉米平均重量不同,还需要分析。使用多重比较的方法。这使用LSD法(也是费舍尔提出的)。 LSD法也有其分析步骤,具体如下:
实践是检验真理的唯一标准,还是拿三家玉米卖家的实例来实践多重比较吧,毛主席教导我们没有比较旧没有签别。 实例的演算: 第一步:提出假设, 第二步:计算检验统计量。 第三步:计算LSD,查表得(33)= (33)= 2.034
通过以上的比较分析,也就有把握的判断卖家的货了J做这么多小活了,一定是有目的的。这也是统计目的性所在。我很有把握地小声地给李叔说:“李叔,咱家玉米与别人家的,有明显差异呀,我本来想把您家的玉米全部收了,就是担心顾客比较以后,不买咱家的,您看明天能否批大一点的给我去卖。”李叔:“你看得太认真了,好吧,一定给你批大的早点卖出去。”“谢谢叔,还是您照顾到我,估计城管下班了,我先赶着去摆摊儿。”J 从以上计算过程来看,计算量大,花费时间。尽管比较麻烦,但是有必要知道其计算方法和目的。就好比我们要知道去的目的地,知道路线,至于怎么去,那看个人选择的交通工具了。选择软件来实现方差分析和多重比较,当然比笔算快捷得多。多个软件均可以实现分差分析与多重比较。问题是比较好的软件需要付出$。以下运用EXCEL,MINITAB,SPSS来实现方差分析。 1. EXCEL实现方差分析 (注:EXCEL的数据分析模块需要安装后才能使用。在打开EXCEL之后安装路径OFFICE按钮EXCEL选项(I)----加载项----转到(G)。。。---勾选分析工具库---确定。见图1-图3) 1)方差分析路径:数据---数据分析---选择方差分析:单因素方差分析,确定。出现如下图4的对话框: 图4 在“输入区域(I)”选择单元格“$B$2:$D$14”,“输出区域”选择单元格“$F$2”,点击“确定”按钮。输出结果如下图5: 图5 根据EXCEL进行的分析结果,P-value=0.0142=0.05,拒绝原假设。也可以根据F=4.852>F crit=3.284,拒绝原假设。 2)多重比较分析 建立表哥如下图6所示: 图6 B19,B20,B21当中。 在单元格B18输入“=TINV(0.05,H14)”,按回车键,即可求出(33)的值 在单元格B19输入“=B18*SQRT((I14*(1/G6+1/G7)))”,按回车键,即可求出LSD1 的值;在单元格B20输入“=B18*SQRT((I14*(1/G6+1/G8)))”,按回车键,即可求出 LSD2,在单元格B21输入“=B18*SQRT((I14*(1/G7+1/G8)))”,即可求出LSD3的值。 在多重比较表当中,对三组数据的均值作比较,分别在需要比较行列交叉的空格,通过使用IF函数来判断。具体如下: 在单元格D25输入“=IF((ABS(B$25-$D24))>=B19,'显著','不显著')”,按回车键后得出判断结论“不显著”,类似的,可在C26,C27, D27,E25,E26等输入IF函数及使用的对应单元格。注意标点符号必须为英文状态下,否则判断不了。 图7 2. MINITAB实现方差分析(好多人使用过,比EXCEL好,两者比较就像坐上载人的马车比单独骑马舒服一样J) 分析步骤及路径: 1) 统计—控制图—单值变量控制图—I-MR控制图 图8 图9 2)观察以上控制图无异常情况,接着看数据趋中性, 路径:图形—概率图—选择多个,点确定。 图10 p值>0.05,正态性检验获得通过。 3)接着看各组数据变异是否相等。 路径:统计—分差分析—等方差检验,点确定。在对话框中,点击“选项”,出现选项对话框,选择默认的置信水平:95。勾选“根据正态分布使用检验”,点确定,返 回主对话框,再确定。结果如下图
从等方差检验来看,p值等于0.083,可以认为三家的变异大小是相等的。 4)单因子方差分析 路径:统计—方差分析—单因子,单击, 图13
通过方差分析,看到P值=0.014<> 从两种分析结果看,Tukey做三个比较,其中赵叔家-李叔家,P值=0.013<> 3. 1)进行方差齐性检验,分析路径:分析—比较均值—单因素ANOVA,单击,出现如下图 对话框,点击选项,出现单因素ANOVA:选项对话框,勾选“方差同质性检验(H)”,点击继续,返回主对话框,点击确定。 图18 方差同质性检验结果如下:
2) 路径:分析—比较均值—单因素ANOVA,单击,出现如下图 对话框,点击选项,出现单因素ANOVA:选项对话框,勾选“描述性”“方差同质性检验(H)”,“均值图”点击继续,返回主对话框, 图19 点击“两两比较”,勾选“LSD(L)”,点继续,回到主对话框,点确定。 图20 出现方差分析表2与多重比较表3图21如下: 图21 通过对比分析,看出李叔家的玉米穗重量与赵叔家的玉米穗重量有显著差异,李叔家的玉米穗重量与高叔家的玉米穗重量有显著差异。
以上练习仅仅是简单的操练,不准确的地方恳请指正。其实方差分析在DOE,回归分析,MSA等都使用到,可以看出其重要性,期待老师们提供更有指导性的例子分享。 文:唐毓财 唐毓财(作者) 广西大学园艺专业毕业,华南理工大学管理科学与工程专业在职研究生学历,曾在玩具,灯具行业担任高级品质工程师,印刷行业担任品质经理职位。一直受六六论坛的老师的帮助与鼓励,从对质量管理启蒙,到能独立完成岗位工作,不断进步。。 原创文章投稿admin@sixbb.cn |
|