分享

相关

 筛子 2007-03-29
 

相关分析

什么是相关

简单线性相关

如何解释相关系数

相关的显著性检验

极端值

极端值的定量处理办法

非同质组的相关

变量间的非线性关联

测量非线性关联

相关系数矩阵的探索性分析

缺失数据的对象删除与配对删除

如何辨别缺失值的配对删除引起的误差

缺失数据的配对删除与均值替代

假关联

相关系数可加吗

如何判断两个相关系数具有显著性

目的(什么是关联)

   关联是测量2个或多个变量之间关系的一种方法。量表至少必须为间隔型,但也可得到处理其他类型数据的相关系数。相关系数范围在-1~1之间,-1表示完全负相关,1表示完全正相关,0表示不相关。

最常用的相关系数类型是Pearson相关系数(Pearson r) ,也称为线性或时间-产出相关。 

简单线性相关(Pearson r)

     Pearson相关(下文均称为相关)要求被测量的变量都至少是间隔型的,它决定了两变量值互成比例的程度,相关程度值(如相关系数)不因测量单位的变化而变化;如身高与体重的关系,不管是用英寸(inches)和磅(pounds),还是用厘米(centimeters )和千克(kilograms),所得的结果都是一致的。成比例意味着线性相关,即能用一条直线来描述的话(上斜或下斜),两者则高度相关。

   这条线称为回归线或最小平方线,因为它是由所有的点到直线的距离的平方和最小而得到的。最小平方和这个概念与相关系数对各种不同数据的排列的对应有着重要的作用。(见下文)。     

如何解释相关系数

    上文提到,相关系数(r)表示的是两变量之间的线性关系。如果将相关系数平方,得到的结果(R2决定系数)则表示两变量共同方差比例(相关的强度或大小),为了估计变量之间的关联,了解相关的强度或大小与相关统计学显著性显得很重要 

相关的显著性检验

    每个相关的显著性水平是相关可信性的最基本的信息。正如上文说过(见基本概念),对于一定大小的相关系数,其显著性随样本量的大小而改变。统计学意义检验是在变量Y的残差值(如到回归线的距离)的分布服从正态分布以及对于自变量X取任何值时,残差值的变异程度都一样的假设基础上进行的。不过,Monte Carlo实验提示,如果样本量足够大的话,并不需要完全满足上述假设。要准确地系统阐述Monte Carlo实验结果的建议是不可能的。但许多学者都遵循下述准则:如果样本量超过50的话,误差不会很大,如果样本量超过100的话,可以根本不用考虑正态假设。但存在许多普通而严重问题威胁着相关系数信息的有效性,下段将简要介绍。       

极端值

    极端值是非典型、不常出现的观察值。由于回归线不是由最小距离和,而是由最小距离平方和决定的,极值对回归线的斜率和相关系数的值的大小都会有很大的影响。只要有一个极值就能够改变回归线的斜率和相关系数。见下例的插图,仅一个极值就使原本接近于0相关系数变为高度相关。不言而喻,我们不能仅仅根据相关系数值而妄下结论。(通常建议在进行相关分析前先考察其散点图)

注意如果样本量相当小,那么入选或排除不像上例中那么典型的极值时,将会严重影响回归线(和相关系数)。这就是下一个例子用插图所显示的,我们排除了称为极端值的点,这些点有些人认为不是极端值而是极大值或极小值。

 

    通常认为极端值是我们都想控制的随机误差,但是,至今仍没有公认的办法自动去除极端值(见下段),因此我们只得观察每一个重要相关的散点图。显然,极端值不仅可以人为地增加相关系数,也可以减少正确的相关系数。   

极端值的定量处理办法

    一些学者用定量的方法来排除极端值。比如他们将超过组中值或样本均值±标准差的大小加以排除。在一些研究领域,这种排除绝对是必要的。如在认知心理学反应时间的研究中,大多数人反应时间都在300-70 毫秒 ,只有几个令人疑惑的反应时间在10-15秒间就可以将图形完全改变。由于对极值的定义是主观的,如何判定极值必须按照各自的知识基础(参考典型的实验和认可的实践以及各个领域的一般经验)。在一些罕见例子中,各组或样本观察值中出现相当频率的极值也可进行分析,并提供可解释的结果。因为极值提示可能发生与样本典型观察期望值性质不同的现象,因此,一定数量的极值说明仍有一定频率的观察值与大多观察对象的典型值发生偏离。

非同质组的相关

    相关系数发生偏移的另一原因是计算相关系数的样本缺乏同质性。假设计算相关系数的数据来自两个不同实验组但人们又忽略了这一点,其中一组的实验性操作增加了两个相关变量的值,这样每一组中的数据在散点图中都形成了明显的“阴云”。

  在这种情况下,由于两组非同质的数据的排列在一起而导致两者呈现高度相关,但并不能代表两者之间存在真正的关联,(如果单独观察每一组变量)其相关系数几乎等于0。

    如果怀疑在数据分析过程中存在这种现象,并且已知道如何鉴别数据中的亚类,最好先对每一亚类的数据进行单独的相关分析。如果不知道如何识别假设的亚类,可用一些探索性的统计方法来辨别(如,聚类分析)。    

变量间的非线性关联

    对于线性相关系数(Pearson r)的另一潜在的问题是相关的类型。上文讲过,Pearson r 仅仅是用来测量两变量线性相关关系;线性偏离会增加偏离回归线的总平方和,即使这些偏离能够体现两变量之间真正关系。存在非线性关系的可能性是为什么散点图作为估计关联的必要步骤的另一原因。下图显示了两变量存在强相关,但不能用线性方程描述出来。

测量非线性关联

    如果遇到非线性的强关联,该怎么办(从散点图中知道)?这个问题的回答并不简单,因为没有类似Pearson r 这样易于使用的系数用于解决非线性关联。如果曲线是单调的(递减或递增),可以将其中一个或两个变量都进行转化,进行曲线直线化,然后再次计算相关系数。例如这种方法典型的例子即使将某一范围末尾值进行压缩的对数转化。如果关联是单调的,另一种方法是使用仅对等级型变量敏感的非参数性的关联系数(如Spearman R,见Nonparametrics and Distribution Fitting),这种情形就忽视了单调的可直线化曲线的特性。非参数关联一般来说其敏感性较差,有时甚至得不到结果。但是上述两种较为准确的方法并不能轻易使用,需要对数据进行大量的研究,因此必须:

  a.尽力寻找出最能描述曲线的特异方程,并进行数据拟合优度检验。

  b.另外可尝试将其中的一个变量分为多个等长的部分,将这些新变量当成分组变量,然后进行方差分析。        

相关系数矩阵的探索性分析

    对多个变量的数据分析通常第一步是列出所有变量的相关矩阵,然后进行分析所期望(或意外)的显著性关联。在结束这步后,要注意统计学显著性的基本性质(见基本概念);具体地说,如果进行多次检验,(在此,有多个关联),由于纯偶然性,就会得到许多显著性的结果。例如理论上,相关系数在α=0.05水准下表示每20个系数中只有一个系数是由于偶然性得到的。由于没有自动的方法剔出正的相关。因此必须对那些无法预料和以外的结果特别留意,要注意与其他结果一致性;对这种随机因素的控制最后要进行重复实验(尽管很昂贵)。这个问题很普遍,存在于所有含有多次比较的分析中,这个问题在均数的两两比较分解分析中已简要讨论。 

缺失数据的对象删除(Casewise)与配对删除(Pairwise)

    在计算相关矩阵时,删除缺失数据的不负责任的办法是将所有含有缺失值的观察单位全部弃除,即所有的缺失值对象予以删除。只有这样才可得到“真实”的相关矩阵,矩阵中所有相关系数都来自于相同的观察对象。但是如果缺失值在观察样本中的分布是随机的,常常发现数据集中没有一个是有效的观察对象,因为每一个观察对象变量集中均至少含有一个缺失值。在这种情况下,最常用的办法是使用所谓的矩阵缺失值的配对删除,这个矩阵中每一对变量的相关系数都是从两个变量都具有有效数据的观察对象中得到的。通常这种方法没有什么不妥,特别是缺失值的百分率很低如10%,并且随机分布于各个观察单位与变量之间。不过有时也会导致严重的错误。

    例如缺失值潜在的系统分布可产生系统偏差,相关矩阵中不同的相关系数在观察对象的不同亚群基础上得到的。除了从这种“配对删除”的相关矩阵得出的错误的结论外,当将这种矩阵用于需要真实相关矩阵的其他分析时(如因子分析,聚类分析等),这种矩阵要求相关系数间有一定的一致性和传递性,真正的问题就产生了。因此,如果使用缺失数据的配对删除方法,一定要检查缺失值在矩阵格子中的分布。  

如何辨别缺失值的配对删除引起的误差

    如果配对删除缺失值不会对相关矩阵引起任何系统偏差,那么经过配对删除后对某个变量的描述性分析的统计量是都是相似的。如果不同,就要怀疑是否存在偏差。例如,如果计算与变量B关联时,变量A的均数(或标准差)比计算与变量C关联时小得多,那么我们有足够的理由怀疑这两个关联(A-B 与A-C)是在数据亚集基础上得到的,相关矩阵中存在缺失值非随机分布导致的偏移

如缺失数据的配对删除与均值替代

    另一种避免由于对象删除(casewise)而丢失数据的方法是用均值替代缺失值(用变量的均值替代变量中所有的缺失值),与配对删除比较,均值替代有其优点也有其缺点。其主要的优点是得到内部一致的结果(真相关矩阵),主要的缺点在于:

    A.均值替代人为地减少了分值的方差,变量中方差减少的量与缺失值的数目成比例(如缺失值越多,数据中人为的平均值越多)。

    B.由于用人为的均值代替缺失值,均值替代可能严重影响相关系数的值。  

假关联

   尽管相关系数不能证明因果关系(见基本概念),但是可辨别所谓的假关联;即关联的产生是由于另一个变量的影响。如火灾中财产的损失与救火的消防队员的人数有关;不过关联并不意味着消防队员越少,损失越小。存在第三变量影响着财产的损失与救火员的数目(火灾    的大小),如果控制了这个变量(如火灾的大小),这种关联要么不存在要么就反过来。对于假关联的主要问题是我们不知道潜在变量是什么。当我们知道从哪着手,便可使用偏相关来控制某一特定变量的影响。

相关系数可加吗?

    不能,例如多个样本中的相关系数的平均值并不能代表所有样本的平均关联,因为相关系数值并不是变量间关联大小的线性方程。相关系数不能简单地平均。通常,需要平均关联时,首先必须转化为可加的形式。如,将相关系数平方得到可加的决定系数,或转化为所谓Fisher z值。  

如何判断两个相关系数具有显著性

    有一种估计两样本中两相关系数显著性的检验方法。检验的结果不仅有赖于样本量的大小还有赖于其系数的本身。与上文原则一致,样本量越大,小效应也可证明具有显著性。通常,因为相关系数的可信性随着本身的绝对值的增加而增加,所以大相关系数中相当小的差异有可能具有显著性。例如,两个系数为0.150.25,相关系数0.1的差异可能无显著性,尽管在同一样本中,如果系数为0.800.90 0.1的差异可能有高度意义。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多