第16章如何把握多重回归分析中的试验设计和数据结构及方法选择在一个实际研究中,若目的是为了研究一个因变量随多个自变量变化而变化的依赖关系, 则称为多重回归分析问题。16.1何为多重回归分析?从一组受试对象身上观测到多个变量的取值,在这些变量中,有一个是人们关心的结果变 量(或称为因变量),其他变量都有可能是导致因变量取值发生变化的原因变量(或称为自变量)。在统计学上,研究因变量随自变量变化而变化的 依赖关系的统计分析方法被称为多重回归分析。16.2为什么进行多重回归分析还要考虑试验设计?第一,拟考察的因变量和自变量分别是什么 ;第二,为什么要考察这些自变量而不是另外一些自变量;第三,从哪些受试对象身上观测所有变量的取值;第四,在自变量的哪些水平组合下去获 得因变量的取值。科学、有根据地回答上述4个问题的方法或具体安排,就是多重回归分析之前的“试验设计”。16.3多重回归分析有哪些数 据结构及如何选择相应的统计分析方法16.3.1因变量为连续型变量的数据结构及统计分析方法的选择(1)因变量为一般连续型变量:多重 线性回归分析的数据结构应属于单组设计多元资料,但必须保证拟选用因变量的变量是连续型的;自变量可以是连续型的,也可以是离散型的,通常 由既有连续型变量又有离散型变量的混合型自变量组成。当一个实际问题中的因变量为一般连续型变量,欲研究该因变量是如何随多个自变量变化而 变化的依赖关系时,宜选用多重线性回归分析。此时,不排除对自变量进行某些简单的变量变换,如对数变换、开平方根变换、倒数变换,也不排除 引入平方项和交叉乘积项;在要求不十分严格的前提下,也不排除对因变量进行上述那些简单的变量变换,但此时更科学的做法是采取广义线性模型 而不是一般线性模型。当自变量之间存在较强的多重共线性关系时,通常可以采用两种改进的方法,其一称为“岭回归分析”;其二称为主成分回归 分析。资料补充:一般线性模型与广义线性模型区别与联系。形式上,广义线性模型时常见的正态线性模型的直接推广。它可适用于连续数据和离散 数据,特别是后者,如属性数据,计算数据。这在实用上,尤其是生物,医学和经济、社会数据的统计分析上,有重要的意义。1)一般线性回归定 义:设有因变量Y,自变量x。Y为一维,x一般为多维。通常的线性回归有以下几个特征:①E(Y)=μ=(线性,线性指对β,非x),为 x的已知(向量)函数,表示转置(“”都表示转置,不是导数),常简记为。②x,,Y都是取连续值的变量。③Y的分布为正态,或接近正 态分布。2)广义线性回归从以下几个方面推广:①E(Y)=μ=,h为一严格单调,充分光滑的函数。h为已知,g=(h的反函数)称为联 系函数(linkfunction)。有g(μ)=。联结函数可以是任何单调可微函数(如对数函数logarithm或逻辑函数log it)。②x,z(x),Y可取连续或离散值,且在应用上更多见的情况为离散值,如{0,1},{0,1,2……}等。③Y的分布属于 指数型,正态是其一特例。GLM模型中Y的分布可以是任何形式的https://www.baidu.com/s?wd=%E6%8C%8 7%E6%95%B0%E5%88%86%E5%B8%83&tn=44039180_cpr&fenlei=mv6quAkxTZn0I ZRqIHckPjm4nH00T1YLrAfLmWK9n19WnANBmhNh0ZwV5Hcvrjm3rH6sPfKWUMw85H fYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN-TLwGUv3 EnHmsP1R3nWD3rjc4PW0YnH0zPs指数分布(如高斯分布、https://www.baidu.com/s?wd= %E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83&tn=44039180_cpr&fenlei=mv6qu AkxTZn0IZRqIHckPjm4nH00T1YLrAfLmWK9n19WnANBmhNh0ZwV5Hcvrjm3rH6sPf KWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-bIi4WUvYETgN -TLwGUv3EnHmsP1R3nWD3rjc4PW0YnH0zPs泊松分布、https://www.baidu.com/s?w d=%E4%BA%8C%E9%A1%B9%E5%BC%8F%E5%88%86%E5%B8%83&tn=44039180_cpr&f enlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1YLrAfLmWK9n19WnANBmhNh0ZwV5Hc vrjm3rH6sPfKWUMw85HfYnjn4nH6sgvPsT6KdThsqpZwYTjCEQLGCpyw9Uz4Bmy-b Ii4WUvYETgN-TLwGUv3EnHmsP1R3nWD3rjc4PW0YnH0zPs二项式分布)。(2)因变量为生存时间变 量:当因变量为生存时间,自变量为混合型变量时,由于生存时间的取值有两个明显的特点:生存时间变量通常不服从正态分布;资料中有删失数据 。因此不能用一般线性模型理论来解决因变量为生存时间的回归分析问题,而需要采用专门的统计处理技术,即生存资料的回归分析方法。它分为半 参数法(即COX比例风险模型与非比例风险模型)和参数法(即参数模型法)。(3)因变量为时间变量的函数:当因变量为时间变量的函数时, 因变量不仅会随自变量变化而变化,而且,它还会随因变量历史取值的变化而变化,即因变量取值之间存在相依关系。例如全国近20年来逐年乙肝 发病率或死亡率,太空中20年来逐年太阳黑子数(常用时间序列分析方法来研究)。此时,欲研究因变量随自变量变化的依赖关系,应选用多维时 间序列分析。16.3.2因变量为离散型变量的数据结构及统计分析方法的选择因变量为离散型变量通常有3种具体表现形式,即二值变量、多 值有序变量和多值名义变量。自变量通常是混合型的。对应的统计分析方法可统称为多重logistic回归分析,具体来说,可分别称为因变量 为二值变量的一般多重logistic回归分析、因变量为多值有序变量的累积多重logistic回归分析和因变量为多值名义变量的多项多 重logistic回归分析。若自变量都是定性变量,因变量是二值变量或多值名义变量,其数据结构分别见表16-3和表16-4,还可选择 对数线性模型处理资料。表16-35251例新生儿健康状况与孕妇的关系年龄(A)吸烟(S)服药(D)例数(Y):正常异常<30是是 20458否33067否是1051210否101417830~是是12531否18042否是582144否4898535~是是35 20否3510否是15853否11931在表16-3中,若以变量Y为因变量,则称此列联表为结果变量为二值变量的四维列联表 资料。在表16-4中,若以变量“肺炎类型”为因变量,则称此列联表资料为结果变量为三值名义变量的三维列联表资料。表16-463例 患儿肺炎发生情况指标一指标二例数肺炎类型:结核性化脓性细菌性阴性阴性454阳性911阳性阴性9611阳性1012将高维列联表中 理论频数的对数视为“新因变量”的取值,而把原先的自变量和因变量一律视为“新自变量”,采用类似方差分析的方法来检验“新自变量”及其交 互作用项对“新因变量”的影响是否具有统计学意义,此法被称为“对数线性模型”,其本质上仍属于多重回归分析的范畴。因变量为离散型变量时 还有两种特殊表现形式,其一,因变量只取正整数,此时,常称为计数资料,当因变量的平均值与方差接近相等时,常采用Possion回归分析 ,其数据结构见表16-5.表16-5某医院非器质性心脏病伴有胸闷患者情况编号x1x2x3y编号x1x2x3y编号x1x2x 3y101111110001210115200071200192211083000313001623110134101 5141111724001850002150005251006611113161001126001470106170 1182700068101101810192811113900041900082911091010172010053 00015在表16-5中,某医生从收集的某医院非器质性心脏病并且仅有胸闷症状的就诊者中选取了30位患者在24小时中的早搏数y( 次),试问早搏是否与吸烟x1(0-不吸,1-吸)、性别x2(0-女,1-男)和喝咖啡x3(0-不喝、1-喝)有关?当采用Poiss on回归分析拟合回归方程效果很差时,可采用负二项回归分析,其数据结构见表16-6.其中,“就诊次数”为因变量。其二,因变量为二值变 量,但资料不是针对每一个个体的详细资料,而是针对具有相同自变量取值的一组资料,即按全部自变量的水平组合形成许多小组,以每个小组的发 生率为因变量的取值,此时,可采用Probit回归分析(或称为概率单位回归分析),其数据结构见表16-7.表16-6患者就诊次数 及其影响因素数据观测号就诊次数改革与否健康状况年龄受教育时间家庭收入(取对后)11004510.57.636829015397 .6992340014810.57.0574401052187.688651004010.57.5415…………………222 70103877.7232表16-7减肥效果与减肥药种类、服用剂量即服用周数的关系编号减肥药剂量(mg/d)服用周数(w)观 测人数(例)有效人数(例)1A10.23450442A7.76349423A5.13346244A3.80248165A2 .5715066B50.12548487B40.74550478B30.20549479B20.422483410B10.001481811C25.125504812C20.424464313C15.143483814C10.0024627注:“有效人数”是指服药后体重下降至少达到5kg的人数在表16-7中,某研究者研究减肥药的种类、剂量与减肥效果的关系。研究者利用A、B、C3种减肥药来分别给受试者服用,期间服用减肥药的浓度、服用周数、观测人数及有效人数各不相同。研究者希望以各行上的有效率(有效人数/观测人数)作为因变量。 |
|