科研资料的分析思路 - 医生生活 - DonewsBlog

zstar 2006-12-27

展开全文

预备知识

*同质（homogeneity）与变异(variation)：

严格地讲，同质是指被研究指标的影响因素完全相同。但在医学研究中，有些影响因素往往是难以控制的（如遗传、营养等），甚至是未知的。因此，在实际工作中只有相对的同质。在统计学中可以把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时，要求影响身高的较大的、易控制的因素如性别、年龄、民族、地区要相同，而不易控制的遗传、营养以及未知的影响因素可以忽略。

同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区健康儿童的身高、体重不尽相同；相同病种、病程的病人，使用同一疗法，却未必有相同疗效。这些不同就是变异。变异是生物体的基本属性之一，也是统计研究的前提，若所研究的同质群体中各个观察单位都一样，没有差别，分析一个就够了，无须进行统计研究。

* 变量 (variable)

在搜集资料时，首先要根据研究目的确定同质观察单位，再对每个观察单位的某项特征进行测量或观察，这种特征称为变量。如“身高”、“体重”、“疗效”、“性别”、“职业” 等都是变量。变量的观察结果或测量值称为变量值，变量按其值的性质可分为数值变量(numerical variable)和分类变量（categorical variable）。

数值变量的变量值是定量的，表现为数值的大小，通常是使用仪器或某种尺度测定出来的，多有度量衡单位。如身高（cm）、体重（kg）、心律（次/分）、住院天数（日）、血压（mmHg）等。由数值变量的测量值组成的资料称为数值变量资料（计量资料或定量资料）。大多数的数值变量为连续型变量，如身高、体重、血压等；而有的数值变量的测定值只是正整数。如心率、白细胞计数等，在医学统计学中把它们也视为连续型变量。

分类变量表现为互不相容的类别或属性，亦称定性变量。分类变量又可分为无序与有序两类。

1、无序分类变量是所分类别或属性之间无程度和顺序上的差别。如性别（男、女）；血型（O、A、B、AB）等。无序分类变量的分析应先按类别分组，然后清点各组的观察单位数，编制分类资料的频数表，所得资料为无序分类变量资料（计数资料或定性资料）。它又有二项分类资料和多项分类资料之分。

1）二项分类资料：仅有两种类别或属性。如性别（男、女），化验结果（阴、阳性）等。

2）多项分类资料：两种以上的类别或属性。如血型（O、A、B、AB），职业（工人、农民、商人、干部、军人、教师 …）等。

2、有序分类变量是各类别或属性之间有程度上的差别。如尿糖化验结果按 -、±、+、++、+++分类；疗效按治愈、好转、无效、恶化分组。有序分类变量的分析应先按等级顺序分组，然后清点各组的观察单位数，编制各等级的频数表，所得资料为有序分类变量资料（等级资料）。

除以上资料外，医学研究中还有角度（如脑电图）、季节月份、时间等周而复始的资料，在医学统计中称其为圆形分布资料。

另外，变量类型不是一成不变的，可根据研究分析的需要进行转化。例如白细胞计数原属数值变量，若按正常、异常分组，则为无序分类变量；若按过低（<4000）、正常（4000~10000）、过高（>10000）分组，则为有序分类变量。分类变量也可数量化，如将病人的恶心反应以0、1、2、3表示。

在做统计分析时，无论是统计描述，还是统计推断，都要先考虑变量类型，变量类型不同统计方法也各异。

* 总体（population）与样本（sample）

总体是根据研究目的所确定的同质研究对象中所有观察单位的某变量值的集合。例如对2004年济南市7岁儿童的体重参考值进行研究，研究对象是该市7岁健康儿童，观察单位是每个7岁健康儿童，变量是体重，变量值是体重测量值，该市2004年全体7岁健康儿童的体重值构成一个总体。它的同质基础是同地区、同年龄、同性别、同为健康儿童；差异性则表现在这些儿童的体重值不相同。研究目的不同，其总体范围也不同。医学研究对象，可以是人、实验动物、微生物等；观察单位可以是一个地区、一个家庭、一个人、一只眼睛、一个细胞株、一个基因片段等。

若在某特定的时间与空间范围之内，同质研究对象的所有观察单位的某变量值的个数为有限个，则这个总体称为有限总体。有时总体是假设的，没有时间和空间的限制，观察单位数是无限的，称为无限总体。在医学研究中，通常采用抽样研究的方法。

样本是按随机化原则从同质总体中随机抽取的部分观察单位的变量值的集合。所谓随机化原则，通常是指总体中的每个个体都有同样的机会被抽到样本中；但不同的研究目的，所采用的抽样方法不同，如单纯随机抽样、系统随机抽样、整群抽样和分层抽样等。

在统计学中，描述样本的变量值特征的指标称为统计量；描述总体变量值特征的指标称为参数。

※ 科研资料的分析思路

资料的分析必须包括两部分内容：一是统计描述，二是统计推断。分析资料时，无论何种研究目的，首先要对样本资料进行统计描述，然后根据研究目的进行统计推断。

一、统计描述

根据资料的变量类型及其分布特征选用恰当的描述性指标和统计图（表）来描述样本特征。

* 常见的变量类型有：数值变量资料和分类变量资料（前文提过）。

1、数值变量资料

根据变量值的频数分布，数值变量资料有正态分布、对数正态分布和偏态分布之分。

数值变量资料的描述
分布类型	描述性指标
正态分布 ^※	均数和标准差；（必要时，可用、和）
对数正态分布^※	几何均数和相应的标准差
偏态分布	中位数和四分位数间距

^※正态分布含近似正态分布； 对数正态分布含倍数资料（以下同）

表中相应的公式： 、；

、；

、，其中

2、分类变量资料

应用相对数来描述。常用的相对数有率、构成比和相对比，可根据不同的研究目的选用。

率为频率指标，用于说明某现象发生的频率或强度。其公式为

；

构成比为构成指标，用于说明某一事物内部各组成部分所占的比重或分布，常以百分数表示。其公式为：

相对比是A、B两个有关指标之比，用于说明A为B的若干倍或百分之几。A、B两个指标可以是性质相同的，也可以是性质不同的；可以是绝对数，也可以是相对数或绝对数。其公式为：

二、统计推断

抽样研究的目的是用样本信息来推断总体特征，即统计推断。统计推断又包括总体参数估计和假设检验两部分内容。进行统计推断时，需根据研究目的、设计类型、资料类型及其分布特征，正确选用分析方法。

* 常见的研究目的：估计总体参数、制定医学参考值范围、假设检验（样本与总体的比较、两样本的比较、多样本的比较）、多因素分析（含线性相关回归）等。

* 常见的设计类型：完全随机设计、配对设计、随机区组设计（配伍组设计）；其次，还有交叉设计、拉丁方设计、析因设计、正交设计等。

* 常见的资料类型及其分布特征：数值变量资料（正态、对数正态、偏态分布）、分类变量资料（二项分布、Poisson分布）

（一）估计总体参数：（均按完全随机抽样方法获得的样本）

※ 数值变量资料

数值变量资料的总体参数估计
分布类型	总体参数估计的估计方法
正态分布 *	估计总体均数的95％可信区间
	1、已知时，
	2、未知且n小时，（）
	3、未知，但n足够大时，
偏态分布	估计总体中位数的95％可信区间 1、先求50％的上、下限， 2、再求出，

* 对于对数正态分布资料，1、先将变量值取对数；2、应用估计总体均数的95％可信区间的公式求出上、下限；3、对上、下限求反对数。

※ 分类变量资料

分类变量资料的总体参数估计
类型	总体参数估计的估计方法
二项分布	估计总体率的95％可信区间 1、查表法： 50，且p远离0.5时，根据和阳性数查“百分率的可信区间”表； 2、正态近似法：，且样本率或均不太小（一般规定与均大于5）时，。
Poisson分布	估计总体平均数的95％可信区间 1、查表法：样本阳性数时，用X值查Poisson分布μ的可信区间； 2、正态近似法：时，（，）。

（二）制定医学参考值范围（用于数值变量资料）

医学参考值范围的制定方法
分布类型	制定方法
正态分布	正态分布法：双侧界值：单侧上界：，或单侧下界：
对数正态分布	对数正态分布法：双侧界值：；单侧上界：，或单侧下界：。
偏态分布	百分位数法：双侧界值：和；单侧上界：，或单侧下界：。

（三）假设检验

1、样本与总体的比较（均按完全随机抽样方法获得的样本）

※ 数值变量资料的样本均数与总体均数的比较
分布类型	假设检验方法
正态分布	1、未知且样本含量较小时，用检验：， 2、已知时，用检验： 3、未知，但大时，
偏态分布	用样本中位数与总体中位数比较的符号秩和检验（方法同配对资料的符号秩和检验）。
※ 分类变量资料的样本与总体的比较
类型	假设检验方法
二项分布	1、直接计算概率法：用于偏离0.5较远，且阳性数较小作单侧检验时。按二项分布概率公式直接求出累计概率，与所取检验水准比较，作出推断结论。， 2、正态近似法：用于不太靠近0或1，且样本含量足够大；或且时，
Poisson 分布	1、直接计算概率法：用于，且样本均数较小作单侧检验时。按Poisson分布概率公式直接求出累计概率，与所取检验水准比较，作出推断结论。， 2、正态近似法：用于时，

2、两样本的比较

※ 数值变量资料的两样本均数的比较
分布类型	设计类型与假设检验方法
正态分布	完全随机设计（或成组设计） 1、检验：用于两个小样本，，， 2、检验：用于两个大样本，配对设计（用于两个小样本）检验：，对子数－1
偏态分布	完全随机设计（或成组设计）： 1、Wilcoxon秩和检验； 2、Mann-Whitney检验配对设计：配对设计的符号秩和检验

※ 分类变量资料的两样本的比较

类型

假设检验方法

二项

分布

1、 检验：

用于两个样本均满足正态近似条件且样本含量（ ）较大时，可用 检验，其公式为：

2、 检验：

①四格表专用公式：

（ 且所有格子的 ）

②四格表的校正公式：

（但有时）

③四格表资料的Fisher确切概率法：

当，或时

④配对四格表资料的 检验：

, （用于 时）

Poisson

分布

1、 检验：两样本均数 均大于20时。

两样本观察单位相同时，

两样本观察单位不同时，

2、 检验：同二项分布。

3、多个样本的比较

※ 数值变量资料的多个样本均数的比较
分布类型	设计类型与假设检验方法
正态分布	完全随机设计（或成组设计）：完全随机设计的方差分析：把总变异分解为组间变异和组内变异两部分随机区组设计（或配伍组设计）：随机区组设计的方差分析：把总变异分解为处理间、区组间和误差三部分其它设计：如交叉设计、析因设计、拉丁方设计和正交设计等。均有相应的方差分析
偏态分布	完全随机设计（或成组设计）：成组设计的多个样本比较的秩和检验（检验）；随机区组设计（或配伍组设计）：随机区组设计的多个样本比较的秩和检验（检验）交叉设计：交叉设计的秩和检验

※ 分类变量资料的多个样本的比较（均为完全随机设计）

①双向无序 表资料：两个分类变量，即分组变量和指标变量均是无序的。其研究目的通常是多个样本率的比较、两个或多个构成比的比较可用行 列表资料的 检验：

， (行数-1)(列数-1)

不同疗法治疗某病的有效率的比较
疗法	有效	无效	合计
甲
乙
丙
合计

②单向有序 表资料：有两种形式。一种形式是 表资料中的分组变量是有序的（如年龄），而指标变量是无序的（如传染病的类型）。其研究目的通常是分析不同年龄组各种传染病的构成情况，此种单向有序 表资料可用行 列表资料的 检验进行分析。

×× 年全国疾病监测系统甲乙丙传染病不同年龄组构成
年龄组	霍乱	伤寒	痢疾	麻疹	出血热	钩体	合计

20－
40－
60－
80
合计

另一种形式是 表资料中的分组变量为无序的（如疗法），而指标变量是有序的（如疗效按等级分组）。其研究目的为比较不同疗法的疗效，此种单向有序 表资料宜用秩和检验。

不同疗法治疗某病的疗效比较
疗法	痊愈	显效	有效	无效	合计
甲法
乙法
丙法
合计

③双向有序属性相同的 表资料： 表资料中的两个分类变量皆为有序且属性相同。实际上是配对四格表资料的扩展，即水平数 3的配伍资料，如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性，此时宜用一致性检验或称Kappa检验；也可用特殊模型分析方法（可用SAS软件）。

④双向有序属性不同的 表资料： 表资料中两个分类变量皆为有序的，但属性不同。宜用秩和检验。

（四）随访资料的生存分析：

生存分析多用于恶性肿瘤、白血病等严重疾病和慢性病的生存时间的研究。生存分析可分为非参数法、半参数法、参数法。

※ 非参数法：一般用于单因素分析，常用的分析方法有Kaplan-Meier法（用于小样本的未分组资料）、寿命表法（用于大样本的分组资料）。

※ 半参数法：如Cox比例风险回归模型

第 个变量的相对危险度（风险比）为

Cox比例风险回归模型用于分析带有伴随变量的生存时间资料，其优点是适用条件宽和便于作多因素分析，是目前广泛用于的生存分析方法之一。主要用于肿瘤和其它慢性病的预后分析，也可用于一般的临床疗效评价和队列研究的病因探索。

※ 参数法：如威布尔回归模型。半参数的Cox比例风险回归模型比非参数分析方法的统计效率高，且适用范围也很广，但它要求风险比 不随时间变化；当随访时间很长时，有些因素（如年龄）的作用强度是有变化的，因而Cox比例风险回归模型的应用受到一定限制。威布尔回归模型基于威布尔分布，是允许风险随时间变化的多因素生存分析参数模型。与Cox比例风险回归相比，威布尔回归对生存过程的描述较精确，统计效能更高，是生存分析中的一个重要的参数回归模型。但它要求风险单调变化，使适用范围受到一定限制。

（五）双变量的相关分析

研究目的是分析两变量之间有无关系及其关系的密切程度。

※ 数值变量资料：

1、双变量正态分布资料：直线相关分析

2、非双变量正态分布资料： Spearman等级相关分析：

※ 分类变量资料：

1、 双向无序的 表资料 如测得某地5801人的ABO血型和MN血型结果如表，问两种血型系统之间是否有关联？

表某地5801人的血型

ABO血型	MN血型			合计
ABO血型	M	N	MN	合计
O	431	490	902	1823
A	388	410	800	1598
B	495	587	950	2032
AB	137	179	32	348
合计	1451	1666	2684	5801

可用行 列表资料的 检验以及Pearson列联系数进行分析：

先用行 列表资料的 检验， (行数-1)(列数-1) 来推断两个分类变量之间有无关系（或关联）；在有关系的前提下计算Pearson列联系数 ，进一步分析关系的密切程度， 。

2、双向有序属性不同的 表资料：用Spearman等级相关分析。

不同期次矽肺患者肺门密度级别分布
矽肺期次	肺门密度级别
矽肺期次	＋	＋＋	＋＋＋	合计
Ⅰ
Ⅱ
Ⅲ
合计

（六）双变量的回归分析

研究目的是分析两变量之间的数量依存关系。

※ 数值变量资料：

1、当两变量为双变量正态分布资料且呈直线关系时，

应用Ⅱ型直线回归分析：

，，，

2、当变量为给定值，变量为正态分布资料，且两变量呈直线关系时，应用Ⅰ型直线回归分析：公式同上。

3、当两变量为等级资料但呈直线关系时，应用秩回归分析。

（七）多变量统计分析方法

※1 多元线性回归与相关分析：

多元线性回归分析通常是研究一个因变量与多个自变量间的数量依存关系。

，

要求因变量为连续型随机变量，且呈正态分布；各自变量为数值变量。在医学研究中常用于疾病的预报、控制及识别影响因素。例如，研究年龄、吸烟、饮酒与体重指数等因素对收缩压的影响。

多元线性相关分析是研究多个自变量与一个因变量间的相关关系。要求因变量与自变量均为数值变量，且服从正态分布。在医学研究中应用较少。

※ 2 logistic 回归分析：

logistic 回归模型是一种概率模型，它是以疾病、死亡、治愈、暴露等结果发生的概率为因变量，影响疾病的发生和预后的因素为自变量建立回归模型。

第 个变量的比数比为：

该模型适用于因变量为二项分类、多项分类的资料；对自变量的要求不如多元线性回归严格，可以是数值变量、有序分类变量和无序分类变量（但对无序分类变量需做合理地数量化）。在医学研究中， logistic 回归特别适用于流行病学研究，既可用于前瞻性研究，也可用于回顾性研究。常用于疾病的病因学分析、预后分析、还可用于鉴别诊断、评价治疗措施等研究。

二分类资料的logistic 回归，根据设计的不同，可分为非条件logistic 回归和条件logistic 回归。非条件logistic 回归用于成组设计资料和队列研究资料，条件logistic 回归用于配对设计资料。多分类资料的logistic 回归可用多态logistic 回归模型进行分析。

※3 判别分析：

判别分析是根据已掌握的一批分类明确的样品，按Bayes或Fisher准则拟合一个或多个判别函数（或判别指数表），用于判别新样品的类别，并使错判率最低。另外，判别分析也可分析各因素对判别的作用大小。

在医学研究中，判别分析主要用于诊断和鉴别诊断；也可用于病因学研究以及疾病预后研究。

常用的判别分析方法有：Bayes判别、Fisher判别，可用于两类判别和多类判别。

※4 聚类分析：

聚类分析是按照“物以类聚”的原则研究事物分类的一种多元分析方法。聚类分析的对象有2种：指标（变量）和样品（个体）。聚类分析也是研究对象（指标或样品）的分类，但和判别分析研究样品的分类不同。判别分析是根据已知类别的一批样品，按某种准则拟合判别函数（或判别指数表）用以判别新样品的类别；聚类分析则是把性质相似或相近的对象（指标或样品）归成类，而事先并不知道这些对象可以分成几类及哪些对象属于相同类。聚类分析的结果主要是经验性的，使用不同的聚类方法可能得出不相同的结果，因此必须结合专业知识来判断聚类结果。因此，与其他多元分析方法相比，聚类分析的方法较为粗糙，理论上还不完善，但它具有很高的适用性，仍在不断地完善与发展。按照研究目的，聚类分析可分为指标聚类分析（R型聚类分析）和样品聚类分析（Q型聚类分析）。

R型聚类分析的目的是在存在众多指标的情况下，把相似指标聚成类，每类找一个典型指标，从而可用少量的几个典型指标来代表原来的众多指标。如全口预成牙列，预定服装、鞋和帽等。指标聚类的聚类统计量为相似系数（相关系数等）。

Q型聚类分析的目的是对样品进行分类，作分类的比较研究；也可在分类后每类找一个典型样品来代表各类样品。如解剖学上依据骨骼的形状、大小等特征来区别人和猿、性别和年龄等；又如卫生部门依据医院的诊治水平、工作效率等指标把若干所医院分成几种类型（如好、中、差），还可找出每种类型医院的代表性医院。样品聚类的聚类统计量为距离。

聚类方法有系统聚类法、动态聚类法、分解法、有序样品聚类法等，常用的为系统聚类法和有序样品聚类法。

※5 主成分分析：

主成分分析把原来多个彼此相关的指标（原变量）线性组合为少数几个彼此独立的综合指标（新变量），且提取了原多个指标的主要成分的统计信息，故称综合指标为主成分。

在医学研究中，主成分分析主要用于：

①综合评价：例如，评价儿童生长发育的综合指标、身体素质的综合指标、身体健康状况的综合指标、诊断疾病的综合指标、治疗疾病的综合指标等；也是对医务工作者、对卫生部门等的工作进行综合评价的的一种统计分析方法；

②主成分回归，用于自变量存在多重共线时。

Trackback: http://tb./TrackBack.aspx?PostId=1025658