相关和相关分析方法
事物之间的联系大致可以分为两类,一类是确定性关系,变量之间存在着一一对应的关系,即函数关系;另一类是不完全确定的关系,两个变量之间存在着相互依赖、相互影响的关系,却不是严格的一一对应关系,称为相关关系。相关关系反映的是变量之间是否存在联系以及联系的程度。确定性关系与相关关系之间往往无法截然区分,一方面,由于测量误差等随机因素的影响,确定性关系在现实中往往通过相关关系表现出来;另一方面,当人们对客观事物的内部规律了解得更深刻时,相关关系又有可能转化为确定性关系。
相关关系主要有三种形式,即正相关、负相关和零相关。正相关是指两个变量之间同方向变动的关系,即一个变量的数值增大,另一变量的数值也增大,反之亦然。例如,收入越高,支出越多,或收入越低,支出越低,两者就是正相关关系。变量之间反方向变动的关系叫作负相关,即一个变量的数值增加时另一变量的数值降低。例如,夫妇教育程度越高,生育意愿越弱。所谓零相关是指两个变量之间不存在相关关系。例如,人的出生时间与气候是没有关系的(见图11-11)。根据相关的强度大小,还可以分为强相关、弱相关、强负相关、弱负相关。相关的表现形式除了直线相关还有曲线相关等。

图11-11 正相关、负相关和零相关的散点图表示
因果关系是相关关系的特殊形式,它是指当一个变量(x)变化时,会影响或导致另外一个变量(y)的变化,但是反过来,当y变量发生变化时,却不会引起x变量的变化。在因果关系中,发生在前面并引起另外一个变量发生变化的变量,即x变量称为自变量,因为x变量的变化而发生变化的变量,即y变量称为因变量。判断因果关系的条件有三个:第一,因果关系是单向关系(x→y),或不对称的相关关系。相关关系则是双向关系(x←→y),当x发生变化时,y也随之变化,反过来也一样。第二,变量x与变量y在时间上有先后关系,即原因变量x(自变量)发生在前,结果变量y(因变量)发生在后。第三,变量x与变量y的关系不是同源于第三个变量的影响。即变量x与变量y之间的关系不是某种虚假的或表面的关系。例如,某项研究发现居住环境越差,盗抢犯罪率越高,两者存在很强的相关关系。但是进一步分析就会发现,实际上两者都和贫困有关。因为贫困,只能居住在环境很差的地方;因为贫困,就容易发生偷盗、抢劫犯罪。
对于相关关系和因果关系的异同,我们可以通过分析一些具体的社会现象来认识。例如,“交往与感情”就是相关关系,它们之间的关系是双向关系,也是同时发生的(也属于共变关系); “收入与支出”就是因果关系,它符合上面讲的三个条件。但是,并不是所有的符合上面所讲的三个条件的变量之间的关系都可以称为因果关系。例如教育水平与收入之间很难说是因果关系,“条件关系”也许更为恰当,影响收入高低的是劳动贡献或工作业绩,教育水平可能是影响劳动贡献或工作业绩的条件。实际上在分析收入高低的原因时还涉及理论的解释,不同的理论对收入的因果关系解释可能是不同的。从这个意义上说,判断因果关系除了要根据上述三个条件之外,还与研究者所选择的理论有很大关系。
用一个统计值表示两个变量之间的相关程度,就是相关统计量。相关统计量的数值范围在-1到1之间,绝对值越大,说明变量之间的相关性越强。若相关统计量大于0,表明变量之间呈正相关,若小于0,是负相关,若等于0,则是零相关。假如等于1或-1,表明非确定性的相关关系转化为确定性的函数关系。如何根据相关统计值判断相关关系的强弱,有些学者根据经验判断,认为0.3以下的相关统计量是低度相关或弱相关,0.3~0.7是中度相关,0.7及以上被看作高度相关或强相关。但是,实际调查研究中的相关统计量很难达到0.5以上,更多的相关统计量在0.3左右或以下。这是因为在调查研究中,大量的变量是定类测量或定序测量,并且受到多元社会因素的影响。因此,以上关于相关关系强弱判断的相关统计值的大小只能作为参考。
相关统计量只是表示相关程度的一个比率数值,它既不是反映相关的百分数,也不是相关量的等单位量度。例如,如果两个变量之间的相关统计量为0.6,并不是说这两个变量有60%的相关;若另有两个变量的相关为0.3,我们只能说0.6的相关程度要比0.3高,但不能说前者的相关是后者的两倍。
在计算相关统计量时,一般要求两个变量服从正态分布,并且,两个变量的数据量至少在50以上,如果数目过少,偶然性的影响会增大,相关统计量就会失去意义。
对于不同层次的变量,其相关统计量的计算方法是不相同的。这是因为变量类型的不同相关的意义也有不同。如果两个变量都是定距层次的,可以根据两个变量在数值上的共同变化关系来理解它们之间的相关,即“一个变量的数值增大,另一变量的数值也随之增大或减小”。基于共变基础上的相关统计量也就是一般数理统计上所讲的相关系数。然而,对于定类层次或定序层次的变量,却无法套用共变的概念去理解它们之间的相关,因为“共变”是指数值上的共同变化,包括数值上的增加或减少,而定类、定序变量的数据是没有数值意义的,不存在数值上的增加或减少,也就谈不上数值之间的共变。例如,对于定距变量“收入”和“支出”,可以这样解释:一个人的收入如果从1 000元增加到1 500元,他的支出可能会从600元增加到800元,这就是数值上的共变。但是,对于定类变量来说,例如“性别”与“支出”,假定“1”代表男性,“2”代表女性,从1变到2,数值变化是没有意义的,我们不能说“当性别由'1’增加到'2’时,支出会减少200元。”这里的“1”和“2”仅是分类的符号,而不是数值的大小。定序变量具有高低、大小、强弱等的顺序关系,在此意义上可以用共变的概念解释它们之间的相关。但是,定序变量不能进行加减运算,因而无法说明共变的程度。因此,对于定类和定序变量,人们不是从共变而是从“连同发生”的角度来理解相关,即如果一个变量中的某种情况(类别)发生了,则另一变量中的某种情况(类别)更可能发生,
.