预备知识 *同质(homogeneity)与变异(variation): 严格地讲,同质是指被研究指标的影响因素完全相同。但在医学研究中,有些影响因素往往是难以控制的(如遗传、营养等),甚至是未知的。因此,在实际工作中只有相对的同质。在统计学中可以把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时,要求影响身高的较大的、易控制的因素如性别、年龄、民族、地区要相同,而不易控制的遗传、营养以及未知的影响因素可以忽略。 同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区健康儿童的身高、体重不尽相同;相同病种、病程的病人,使用同一疗法,却未必有相同疗效。这些不同就是变异。变异是生物体的基本属性之一,也是统计研究的前提,若所研究的同质群体中各个观察单位都一样,没有差别,分析一个就够了,无须进行统计研究。 * 变量 (variable) 在搜集资料时,首先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量。如“身高”、“体重”、“疗效”、“性别”、“职业” 数值变量的变量值是定量的,表现为数值的大小,通常是使用仪器或某种尺度测定出来的,多有度量衡单位。如身高(cm)、体重(kg)、心律(次/分)、住院天数(日)、血压(mmHg)等。由数值变量的测量值组成的资料称为数值变量资料(计量资料或定量资料)。大多数的数值变量为连续型变量,如身高、体重、血压等;而有的数值变量的测定值只是正整数。如心率、白细胞计数等,在医学统计学中把它们也视为连续型变量。 分类变量表现为互不相容的类别或属性,亦称定性变量。分类变量又可分为无序与有序两类。 1、无序分类变量是所分类别或属性之间无程度和顺序上的差别。如性别(男、女);血型(O、A、B、AB)等。无序分类变量的分析应先按类别分组,然后清点各组的观察单位数,编制分类资料的频数表,所得资料为无序分类变量资料(计数资料或定性资料)。它又有二项分类资料和多项分类资料之分。 1)二项分类资料:仅有两种类别或属性。如性别(男、女),化验结果(阴、阳性)等。 2)多项分类资料:两种以上的类别或属性。如血型(O、A、B、AB),职业(工人、农民、商人、干部、军人、教师 …)等。 2、有序分类变量是各类别或属性之间有程度上的差别。如尿糖化验结果按 -、±、+、++、+++分类;疗效按治愈、好转、无效、恶化分组。有序分类变量的分析应先按等级顺序分组,然后清点各组的观察单位数,编制各等级的频数表,所得资料为有序分类变量资料(等级资料)。 除以上资料外,医学研究中还有角度(如脑电图)、季节月份、时间等周而复始的资料,在医学统计中称其为圆形分布资料。 另外,变量类型不是一成不变的,可根据研究分析的需要进行转化。例如白细胞计数原属数值变量,若按正常、异常分组,则为无序分类变量;若按过低(<4000)、正常(4000~10000)、过高(>10000)分组,则为有序分类变量。分类变量也可数量化,如将病人的恶心反应以0、1、2、3表示。 在做统计分析时,无论是统计描述,还是统计推断,都要先考虑变量类型,变量类型不同统计方法也各异。 * 总体(population)与样本(sample) 总体是根据研究目的所确定的同质研究对象中所有观察单位的某变量值的集合。例如对2004年济南市7岁儿童的体重参考值进行研究,研究对象是该市7岁健康儿童,观察单位是每个7岁健康儿童,变量是体重,变量值是体重测量值,该市2004年全体7岁健康儿童的体重值构成一个总体。它的同质基础是同地区、同年龄、同性别、同为健康儿童;差异性则表现在这些儿童的体重值不相同。研究目的不同,其总体范围也不同。医学研究对象,可以是人、实验动物、微生物等;观察单位可以是一个地区、一个家庭、一个人、一只眼睛、一个细胞株、一个基因片段等。 若在某特定的时间与空间范围之内,同质研究对象的所有观察单位的某变量值的个数为有限个,则这个总体称为有限总体。有时总体是假设的,没有时间和空间的限制,观察单位数是无限的,称为无限总体。在医学研究中,通常采用抽样研究的方法。 样本是按随机化原则从同质总体中随机抽取的部分观察单位的变量值的集合。所谓随机化原则,通常是指总体中的每个个体都有同样的机会被抽到样本中;但不同的研究目的,所采用的抽样方法不同,如单纯随机抽样、系统随机抽样、整群抽样和分层抽样等。 在统计学中,描述样本的变量值特征的指标称为统计量;描述总体变量值特征的指标称为参数。 ※ 科研资料的分析思路 资料的分析必须包括两部分内容:一是统计描述,二是统计推断。分析资料时,无论何种研究目的,首先要对样本资料进行统计描述,然后根据研究目的进行统计推断。 一、统计描述 根据资料的变量类型及其分布特征选用恰当的描述性指标和统计图(表)来描述样本特征。 * 常见的变量类型有:数值变量资料和分类变量资料(前文提过)。 1、数值变量资料 根据变量值的频数分布,数值变量资料有正态分布、对数正态分布和偏态分布之分。
※正态分布含近似正态分布; 对数正态分布含倍数资料(以下同) 表中相应的公式: 2、分类变量资料 应用相对数来描述。常用的相对数有率、构成比和相对比,可根据不同的研究目的选用。 率为频率指标,用于说明某现象发生的频率或强度。其公式为 构成比为构成指标,用于说明某一事物内部各组成部分所占的比重或分布,常以百分数表示。其公式为: 相对比是A、B两个有关指标之比,用于说明A为B的若干倍或百分之几。A、B两个指标可以是性质相同的,也可以是性质不同的;可以是绝对数,也可以是相对数或绝对数。其公式为: 二、统计推断 抽样研究的目的是用样本信息来推断总体特征,即统计推断。统计推断又包括总体参数估计和假设检验两部分内容。进行统计推断时,需根据研究目的、设计类型、资料类型及其分布特征,正确选用分析方法。 * 常见的研究目的:估计总体参数、制定医学参考值范围、假设检验(样本与总体的比较、两样本的比较、多样本的比较)、多因素分析(含线性相关回归)等。 * 常见的设计类型:完全随机设计、配对设计、随机区组设计(配伍组设计);其次,还有交叉设计、拉丁方设计、析因设计、正交设计等。 * 常见的资料类型及其分布特征:数值变量资料(正态、对数正态、偏态分布)、分类变量资料(二项分布、Poisson分布) (一)估计总体参数:(均按完全随机抽样方法获得的样本) ※ 数值变量资料
* 对于对数正态分布资料,1、先将变量值取对数;2、应用估计总体均数 ※ 分类变量资料
(二)制定医学参考值范围(用于数值变量资料)
(三)假设检验 1、样本与总体的比较(均按完全随机抽样方法获得的样本)
2、两样本的比较
3、多个样本的比较
※ 分类变量资料的多个样本的比较(均为完全随机设计) ①双向无序
②单向有序
另一种形式是
③双向有序属性相同的 ④双向有序属性不同的 (四)随访资料的生存分析: 生存分析多用于恶性肿瘤、白血病等严重疾病和慢性病的生存时间的研究。生存分析可分为非参数法、半参数法、参数法。 ※ 非参数法:一般用于单因素分析,常用的分析方法有Kaplan-Meier法(用于小样本的未分组资料)、寿命表法(用于大样本的分组资料)。 ※ 半参数法:如Cox比例风险回归模型 第 Cox比例风险回归模型用于分析带有伴随变量的生存时间资料,其优点是适用条件宽和便于作多因素分析,是目前广泛用于的生存分析方法之一。主要用于肿瘤和其它慢性病的预后分析,也可用于一般的临床疗效评价和队列研究的病因探索。 ※ 参数法:如威布尔回归模型。半参数的Cox比例风险回归模型比非参数分析方法的统计效率高,且适用范围也很广,但它要求风险比 (五)双变量的相关分析 研究目的是分析两变量之间有无关系及其关系的密切程度。 ※ 数值变量资料: 1、双变量正态分布资料:直线相关分析 2、非双变量正态分布资料: Spearman等级相关分析: ※ 分类变量资料: 1、 双向无序的 表 某地5801人的血型
可用行 先用行 2、双向有序属性不同的
(六)双变量的回归分析 研究目的是分析两变量之间的数量依存关系。 ※ 数值变量资料: 1、当两变量为双变量正态分布资料且呈直线关系时, 应用Ⅱ型直线回归分析: 2、当 3、当两变量为等级资料但呈直线关系时,应用秩回归分析。 (七)多变量统计分析方法 ※1 多元线性回归与相关分析: 多元线性回归分析通常是研究一个因变量与多个自变量间的数量依存关系。 要求因变量为连续型随机变量,且呈正态分布;各自变量为数值变量。在医学研究中常用于疾病的预报、控制及识别影响因素。例如,研究年龄、吸烟、饮酒与体重指数等因素对收缩压的影响。 多元线性相关分析是研究多个自变量与一个因变量间的相关关系。要求因变量与自变量均为数值变量,且服从正态分布。在医学研究中应用较少。 ※ 2 logistic 回归分析: logistic 回归模型是一种概率模型,它是以疾病、死亡、治愈、暴露等结果发生的概率为因变量,影响疾病的发生和预后的因素为自变量建立回归模型。 第 该模型适用于因变量为二项分类、多项分类的资料;对自变量的要求不如多元线性回归严格,可以是数值变量、有序分类变量和无序分类变量(但对无序分类变量需做合理地数量化)。在医学研究中, logistic 回归特别适用于流行病学研究,既可用于前瞻性研究,也可用于回顾性研究。常用于疾病的病因学分析、预后分析、还可用于鉴别诊断、评价治疗措施等研究。 二分类资料的logistic 回归,根据设计的不同,可分为非条件logistic 回归和条件logistic 回归。非条件logistic 回归用于成组设计资料和队列研究资料,条件logistic 回归用于配对设计资料。多分类资料的logistic 回归可用多态logistic 回归模型进行分析。 ※3 判别分析: 判别分析是根据已掌握的一批分类明确的样品,按Bayes或Fisher准则拟合一个或多个判别函数(或判别指数表),用于判别新样品的类别,并使错判率最低。另外,判别分析也可分析各因素对判别的作用大小。 在医学研究中,判别分析主要用于诊断和鉴别诊断;也可用于病因学研究以及疾病预后研究。 常用的判别分析方法有:Bayes判别、Fisher判别,可用于两类判别和多类判别。 ※4 聚类分析: 聚类分析是按照“物以类聚”的原则研究事物分类的一种多元分析方法。聚类分析的对象有2种:指标(变量)和样品(个体)。聚类分析也是研究对象(指标或样品)的分类,但和判别分析研究样品的分类不同。判别分析是根据已知类别的一批样品,按某种准则拟合判别函数(或判别指数表)用以判别新样品的类别;聚类分析则是把性质相似或相近的对象(指标或样品)归成类,而事先并不知道这些对象可以分成几类及哪些对象属于相同类。聚类分析的结果主要是经验性的,使用不同的聚类方法可能得出不相同的结果,因此必须结合专业知识来判断聚类结果。因此,与其他多元分析方法相比,聚类分析的方法较为粗糙,理论上还不完善,但它具有很高的适用性,仍在不断地完善与发展。按照研究目的,聚类分析可分为指标聚类分析(R型聚类分析)和样品聚类分析(Q型聚类分析)。 R型聚类分析的目的是在存在众多指标的情况下,把相似指标聚成类,每类找一个典型指标,从而可用少量的几个典型指标来代表原来的众多指标。如全口预成牙列,预定服装、鞋和帽等。指标聚类的聚类统计量为相似系数(相关系数等)。 Q型聚类分析的目的是对样品进行分类,作分类的比较研究;也可在分类后每类找一个典型样品来代表各类样品。如解剖学上依据骨骼的形状、大小等特征来区别人和猿、性别和年龄等;又如卫生部门依据医院的诊治水平、工作效率等指标把若干所医院分成几种类型(如好、中、差),还可找出每种类型医院的代表性医院。样品聚类的聚类统计量为距离。 聚类方法有系统聚类法、动态聚类法、分解法、有序样品聚类法等,常用的为系统聚类法和有序样品聚类法。 ※5 主成分分析: 主成分分析把原来多个彼此相关的指标(原变量)线性组合为少数几个彼此独立的综合指标(新变量),且提取了原多个指标的主要成分的统计信息,故称综合指标为主成分。 在医学研究中,主成分分析主要用于: ①综合评价:例如,评价儿童生长发育的综合指标、身体素质的综合指标、身体健康状况的综合指标、诊断疾病的综合指标、治疗疾病的综合指标等;也是对医务工作者、对卫生部门等的工作进行综合评价的的一种统计分析方法; Trackback: http://tb./TrackBack.aspx?PostId=1025658 |
|