变量之间的关系变量之间的关系有两种,一种是变量间存在着完全确定的有关系,这类变量间的关系称为函数关系;另一类是变量间关系不存在完全的确定性,不能用精确的数学公式来表示,这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出求出另一个变量的值,这些变量间的关系称为相关关系,存在相关关系的变量是相关变量。 直线相关的概念对于两变量关系的研究,有时并不需要由X估计Y,也就是说我们有时候并不需要考虑直线回归的问题,而是考虑两个变量之间是否有明确的直线相关关系,例如为了研究向量元素锰在胆固醇合成中的作用,探讨患者肝脏中胆固醇含量和锰含量之间是否存在直线关系?这种关系表现为随着锰含量的增加,胆固醇的是增加还是减少呢?像这类判断两个数值变量之间有元直线相关关系,并回答相关的方向和相关程度如何时,可以采用相关分析。 回归与相关的区别与联系两者的区别回归和相关都是研究两个变量相互关系的分析方法。相关分析研究两个变量之间相关的方向和相关的密切程度。但是相关分析不能指出两变量相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化关系。 回归方程则是通过一定的数学方程来反映变量之间相互关系的具体形式,以便从一个已知量来推测另一个未知量。为估算预测提供一个重要的方法。具体区别有:
两者的联系相关分析与回归分析是广义相关分析的两个阶段,两者有着密切的联系 :
相关分析与回归分析都是研究变量相互关系的分析方法,相关分析是回归分析的基础,而回归分析则是认识变量之间相关程度的具体形式。 直线相关的类别直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料,直线在养的性质可由散点图直观的说明,看下图: 第1张图和第2张图的散点呈椭圆形分布,若两变量X、Y同时增大或减小,变化趋势是同向的,称为正相关(positive correlation),反之,X、Y间呈反向变化,则是负相关(negative correlation),第5和第6张图中,散点基本上在一条直线上,若X、Y是同向变化,称为完全正相关(perfect positive correlation),反之,X、Y呈反向变化,称为完全负相关(perfect negative correlation),再看第第3、4、7、8这四张图,散点分布为圆形等一些形状,两变量之间没有直线相关关系,称为零相关(zero correlation)。正相关或负相关并不一定表示一个变量的改变是另一个变量变化的原因,有可能同受另一个因素的影响,因此,相关关系并不一定是因果关系,打个比方吧,某个地区每年七八月份溺水死亡的人数与雪糕的销量呈现正相关的关系,我们不能推断出来,是雪糕的销售与溺水死亡之间存在着因果关系,因为它们都受同一个因素的影响,就是天气,天气热,雪糕的销量自然高,下水游泳的人也多。 Pearson相关系数相关系数(coefficient of correlation)又称Pearson积差相关系数(coefficient of product-moment correlation),以符号r表示样本相关系数,符号ρ表示其总体相关系数,它用来说明直线关系的两个变量间相关的密切程度与相关方向。 如果(x1,y1)…(xn,yn)为相应于这两个变量x和y的n个观侧值对子,那么Pearson相关系数的总体和样本形式分别如下所示: 总体相关系数的计算公式如下所示: 样本相关系数r的计算公式如下所示: 相关系数没有单位,其值的范围是-1到1,r值为正,表示正相关,r值为负表示负相关,r的绝对值等于1为完全相关,r=0为零相关,在生物界,由于影响因素众多,因此很少完全相关,注意:这里的r实际上是就总体相关系数来说的,r是的估计值。 上面的这两个公式反应了两个变量之间的关系。
Pearson相关系数的计算现在看一个案例,这个案例来源于《医学统计学》(第四版,孙振球)的第九章,具体内容如下所示: 某医师测量了15名正常成年人的体重(kg)与CT双肾总体积(ml)的大小,数据如下表所示,据引回答,两变量是否有关联?其方向与密切程度如何?
计算过程如下所示: 先绘制出散点图,如下所示: weight <-c(43,74,51,58,50,65,54,57,67,69,80,48,38,85,54) cor()函数现在计算一下相关系数,用 cor(x,use=, mehtod= ) 现在我们计算的是线性相关,使用的method参数为pearson(默认参数应时pearson,因此method参数可加不加),如果是直接计算两个变量的相关关系,也可以不使用数据框形式,如下所示: > cor(weight,area) 相关系数的统计推断相关系数的假设检验从同一总体中抽出的不同样本会得到不同的样本相关系数,所以要判断X、Y之间是否确有直线相关关系,就要检验r是否来自于ρ≠0的总体,因为即使从ρ=0的总体作随机抽样,由于抽样误差的影响,所得的r值也常不等于零。因此,当计算出r值后,接着要做ρ=0的假设检验,常用t检验,检验统计量t值的计算公式如下所示: 其中,分母为相关系数的标准误,求得t值后,查t值表就可以得到p值,这个过程现在用软件就可以计算,现在我们计算以下前面的那个案例,也就浊对于所得到的r值,检验CT双肾总体积与体重是否有直线相关关系? 它的假设检验如下所示: H0:ρ=0,即CT双肾减少呢体积与体重之间无直线相关关系 H1:ρ≠0,即CT双肾减少呢体积与体重之间有直线相关关系 alpha=0.05,在本例中,n=15,r=0.8754,根据公式(二),可得 按mu=13,查t值表可知,p<0.001,按alpha=0.05的检验水准,拒绝,拒接H0,接受H1,可以认为CT双肾总体积与体重之间存在正相关,现在用R来计算一下,此时使用
当研究的假设为总体的相关系数小于0时,使用alternative='less'参数,当研究的假设为总体的相关系数大于0时,使用alternative='greater'参数,默认性下是使用alternative='two.side',表示总体相关系数不等于零,这个案例的计算结果如下所示: > cor.test(weight,area) 现在我们看一下这个结果,在这个结果中,我们可以得到这些信息:
决定系数直线回归与相关分析中,还有一个非常重要的统计量,称为决定系数(coefficient of determination),定义为回归平方与总平方和之比,计算公式如下所示: 为了方便描述,在双变量分析和多变量分析中,决定系数都用R平方表示,但是对于双变量分析变量,R平方就等于r平方,具体公式就是公式(一)。 R平方的取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中,回归关系所能解释的百分比,公式三也说明了,当 将此F统计量开平方根,就等于相对公式(二)中的相关系数做假设检验的t统计量,这又验证了相关与回归的假设检验是等价的。 多元线性相关分析在相关分析中,研究较多的是两个变量之间的关系,称为简单相关,当涉及的变量为三个或三个以上时,称为偏相关或复相关,实际上偏相关(复相关)是对简单相关的一种推广。在有些情况下,我们只想了解两变量之间有元线性相关关系,并不需要建立它们之间的回归模型,也不需要区分自变量和因变量,这时候就可以使用较为方便的相关分析方法,具体公式不列了。现在看一个案例,这个案例的数据来源于《医学统计学》第四版.孙振球,案例描述如下: 27名糖尿病患者的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值位于下表中,试计算这几个变量两两之间的相关系数。 … … 第一步:计算两两变量之间的相关系数,如下所示: mlr <- read.table('https://raw./20170505a/raw_data/master/data_szq_1501.csv',header=T,sep=',') # 原始数据集 结果如下所示: > cor(mlr[2:6]) 从上面的结果可以看出来,X4与血糖的高低最为密切,它的r值为0.609,接着是X1,它的r值是0.558。 第二步:绘制出两两间的矩阵散点图,使用 pairs(mlr[2:6]) ![]() 现在看一下相关系数的假设检验,这里用到的包是 > library(mvstats) 左下角为t值,右上角为p值,现在把这个表格拆分一下就可以看清楚了,如下所示: ![]() 左下角是相关系数的t值,右上三解是p值。 Spearman秩相关秩相关的使用范围秩相关(rank correlation)又称等级相关,是用双变量等级数据作直线相关分析,这类方法对原变量分布不作要求,属于非参数统计法,这种方法适用于下列资料:
秩相关的基本思想在秩相关中,使用等级相关系数rs来说明两个变量之间直线相关关系的密切程度与相关方向,其基本思想是将n对观察值Xi,Yi(i=1,2,…,n)分别由小到大偏秩(秩就编号的意思,最小的是1,第2小的是2,最后1个是n),用Pi表示Xi的秩,用Qi表示Yi的秩,其中,每对Pi,Qi可能相等,也可能不等,这里考虑用Pi与Qi之差来反映X、Y两变量秩排列一致性的情况,令di=Pi-Qi,而di的平方和如下所示: ![]() di的平方和从0到其最大值的范围的变化,反映了X、Y两变量的相关程度,为了与积差相关系数r(这个r就是直线相关的相关系数)表示相关程度与方向的形式一致,那么过计算Spearman等级相关的系数rs就如下所示: ![]() rs的值介于-1到1之间,当为正值时,表示正相关,为负表示负相关,等于0表示零相关,样本等级相关系数rs是总体等级相关系数ρs的估计值,检验ρs是否不为零可以查表,当n>50时,可以按下面的这个公式计算 检验统计量u,查u表确定p值,公式如下: ![]() 秩相关计算案例这个案例来源于《医学统计学》(第四版,孙振球),案例描述如下所示: 某省调查了1995年到1999年当地居民18类死因的构成以及每种死因导致的潜在工作损失年数WYPLL的构成,结果见下表,以死因构成为X,WYPLL构成为Y,作等级相关分析。
假设检验: H0:ρs=0,即死因构成和WYPLL构成之间无直线相关关系 H1:ρs≠0,即死因构成和WYPLL构成之间有直线相关关系 alpha=0.05 将两变量X、Y的实测值分别从小到大编秩,用Pi和Qi表示,见上表的(3)、(5)列,每个变量中若有观察值相同的秩,则取平均秩。求每组的秩的差值d、d平方,d平方和,也就是上表的第(6)、(7)栏,按前面的公式(六)计算rs,如下所示: ![]() 在本例中,n=18,查rs的界值表可知,p<0.001,按alpha=0.05的检验水准,拒绝H0,接受H1,可认为当地居民死因的构成和和各种死因导致的潜在工作损失年数WYPLL的构成存在正相关关系。 现在用R来计算一下,如下所示: death_reason <- c(0.03,0.14,0.2,0.43,0.44,0.45,0.47,0.65,0.95,0.96,2.44,2.69,3.207,7.78,9.82,18.93,22.59,27.96) 计算结果如下所示: > cor.test(death_reason,wyypll,method='spearman') 其中,可以发现p值远小于0.01,因此,可认为当地居民死因的构成和和各种死因导致的潜在工作损失年数WYPLL的构成存在正相关关系。 Spearman与Pearson相关分析的区别Pearson相关系数主要用于正态分布资料,Spearman相关系数主要用于非正态分布资料或等级资料,看一个案例: 例6.1 某疾控中心调查了辖区内公务员的体重指数、血压、总胆固醇、空腹血糖等指标,以了解他们的健康状况。现从中随机抽取20人的体重指数、总胆固醇(mmol/L)、空腹血糖(mmol/L)三个指标,分析这三个指标的相关性(《医学案例统计分析与SAS应用》冯国双,第六章 相关分析及SAS实现,例6-2,P103)。 bmi <- c(19.49,21.1,20.56,22.15,22.49,19.56,26.64,22.98,25.8,21.88,21.08,25.25,25.59,23.23,24.17,27.44,27.18,27.46,28.93,24.49) 计算结果如下所示: > normality_test(bmi) 正态检验的结果表明,三个指标采用Shapiro-WIlk、Kolmogorov-Smirnov法,bmi与tc的P值均远远大于0.05,fbg的P值仅略大于0.05,为稳妥起见,下面分别按正态分布与非正态分布进行线性相关分析,即分别采用Pearson与Spearman相关分析。 cor.test(bmi,tc) Pearson相关分析结果:bmi与tc间的相关系数是0.718,有统计学意义(P=0.0003664) cor.test(bmi,fbg) Pearson相关分析结果:bmi与fbg间的相关系数是0.403,无统计学意义(P=0.07811) cor.test(tc,fbg) Pearson相关分析结果:bmi与tc间的相关系数是0.609,有统计学意义(P=0.004349) 接着进行Spearman分析 cor.test(bmi,tc,method=c('spearman')) # Spearman检验 Spearman相关分析结果:bmi与tc间的相关系数是0.752,有统计学意义(P=0.0002006) cor.test(bmi,fbg,method=c('spearman')) # Spearman检验 Spearman相关分析结果:bmi与fbg间的相关系数是0.354,无统计学意义(P=0.1259) cor.test(tc,fbg,method=c('spearman')) # Spearman检验 Spearman相关分析结果:fbg与tc间的相关系数是0.576,有统计学意义(P=0.007919) Kendall τ相关系数Kendall τ相关系数也是一种关于两个变量相关的度量,它的原理是把所有的样本点配对,例如(x1,y1),..(xn,yn)是这两个变量的n个观测值对子。 如果每一个点由x和y组成的坐标(x,y)代表,一对点,就是诸如(xi,yi),(xj,yj)的点对(这里的i和j不同);然后看每一对中的x和y的观测值是否同时增加(或减少),比如由点对(x1,y1)和(x2,y2)可以算出乘积(x1,y1)(x2,y2)是否大于0。如果(x1,y1)(x2,y2)大于0,则说明这点中的x和y同时增长或下降。我们就说这两点协同(concordant),如果这个乘积小于0,那么说明这两个点中的x和y并非同时增长或同时下降,我们称这两点不协同(discordant)。如果样本中协同的点数目多,两个变量就更加正相关一些;如果样本中不协同的点数目多,两个变量就更加负相关一些;如果既不正相关,也不负相关,则为不相关。 这种方法用不差对总体做任何假定也可以检验,因此这是一个非参数的检验(所谓非参数方法,就是它不依赖于变量背后的总体分布)。Kendall τ也是在-1和1之间的娄和,也是越接近1或-1就越相关,越接近于0就不相关。 现在我们看一下秩相关分析案例使用Kenall进行计算的结果,如下所示: death_reason <- c(0.03,0.14,0.2,0.43,0.44,0.45,0.47,0.65,0.95,0.96,2.44,2.69,3.207,7.78,9.82,18.93,22.59,27.96) 结果如下所示: > cor.test(death_reason,wyypll,method='kendall') 从上面的结果我们可以看到,p值几乎为0,τ的相关系数为0.7385621。 关于这三个相关系数的区别Pearson相关系数描述的是两个变量的线性关系,而Spearman和Kendall τ这两个非参数度量更为一般的关于单调关系的度量,这是因为一个变量的秩不会被任何对该变量的单调的严格递增的变换所改变,因此,把这两个非参数度量称为关联(association)的度量可能更为合适。 参考资料1. 孙振球. 医学统计学.第3版[M]. 人民卫生出版社, 2010. 2. DawnGriffiths. 深入浅出统计学[M]. 电子工业出版社, 2012. 3. 王斌会. 多元统计分析及R语言建模[M]. 暨南大学出版社, 2010. 4. 吴喜之. 统计学:从数据到结论(第四版)[J]. 中国统计, 2013(6):2. 5. 冯国双, 罗凤基. 医学案例统计分析与SAS应用[M]. 北京大学医学出版社, 2011. |
|
来自: Jessiee_ > 《omicspie》