《医学统计学》考试即将来临, 小伙伴们,你们准备好了吗? 童鞋甲 小研,《医学统计学》课程结束了,快要考试啦,复习没有思路怎么办呀? 小研 不要着急,小研给你带来一份考试过关攻略,赶紧跟小研一起学起来吧! 1、卫生统计工作的步骤为(研究设计、资料搜集、资料整理、资料分析、结果报告与表达)。 2、统计学的研究内容是统计设计与统计分析,其中统计设计是首要原则,统计分析包括统计描述、统计推断和关系分析。 3、统计中所说的总体是指(根据研究目的确定的同质观察单位某项变量值的集合)。 4、统计上所说的样本是指(从总体中随机抽取的具有代表性观察单位某项变量值的集合)。 5、参数是指(反映总体的统计指标)。 6、从一个总体中抽取样本,产生抽样误差的原因是(同一总体中的个体之间存在差异)。 7、抽样的目的是(由样本统计量推断总体参数)。 8、良好的实验设计,能减少人力、物力,提高实验效率,还有助于消除或减少(系统误差)。 9、随机事件一般是指(在一次试验中可能发生也可能不发生的事件,其发生的概率为0<P<1)。 10、用均数和标准差可以全面描述(正态与近似正态分布)资料的特征。 11、对数正态分布是一种(正偏态)分布。 12、变异系数CV的数值(可以大于1,也可小于1)。 13、各观察值乘以一个大于0的常数后,(变异系数)不变。 14、表示血清抗体滴度资料平均水平最常用的的指标是(几何均数)。 15、要表示某地区2007年强直性脊柱炎患者的职业构成,可以绘制(圆图)。 16、比较身高和体重两组数据变异度大小宜采用(变异系数)。 17、以下指标中(标准差)可用来描述计量资料的离散程度。 18、偏态分布宜用(四分位数间距)描述其变异程度。 19、(对称)分布的资料,均数等于中位数。 20、一组变量的标准差将(随变量值之间的变异增大而增大)。 21、最小组段无下限或最大值段无上限的频数分布资料,可用(中位数)描述其集中趋势。 22、(标准误)小,表示用该样本均数估计总体均数的可靠性大。 23、在实际工作中,发生把构成比作率分析的错误的主要原因是由于(计算构成比的原始资料较率容易得到)。 24、决定正态分布形状的是(总体标准差、总体均数)。 25、正态分布有两个参数与δ、μ,(δ越大)相应的正态曲线的形状越扁平 。 26、对正态分布曲线描述有误的是(正态分布曲线上下完全对称)。 27、均数与标准差之间的关系是(标准差越小,均数代表性越大)。 28、统计推断的内容是(参数估计、假设检验和用样本统计量估计总体参数)。 29、两样本均数比较,经t检验,差别有统计学意义时,P值越小,说明(越有理由认为两总体均数不同)。 30、两样本均数比较的t检验的适用条件是(满足独立性、两总体方差相等和资料服从正态分布)。 31、方差分析有一个前提条件是方差齐性,是指(组间方差=组内方差) 。 32、两个小样本计量资料比较假设检验,首先考虑(资料符合t检验还是秩和检验的条件)。 一、统计学的基本概念 总体:是根据研究目的确定的同质观测单位的集合。 样本:是从统计总体中随机抽取的、具有代表性的部分观测单位的集合。 同质:即构成总体的各个观测单位在某一方面或几方面的性质相同或基本相同。 变异:是指在同质基础上各观测单位之间的差异。 离散型变量:指只能取可数的或有限个数的变量。特点只是取顺序整数值。 连续性变量:指可以取各整数区间的一切实数值的变量。特点是在两个连续的整数值之间还可以用小数或分数连接起来的非整数值。 二、统计的含义 1.统计工作:指搜集、整理、分析和研究统计数据的工作,是统计数据与统计理论的基础和源泉。 2.统计数据:指统计工作研究的主体及成果。 3.统计学:是对研究对象的数据进行搜集、整理、分析和研究,以揭示其总体特征和规律性的方法论科学。 三、统计学的主要内容 1.研究设计:是按照研究目的和统计学要求制定具有针对性、具体性、专业性的工作方案。 2.统计描述:用统计指标、统计图、统计表等方法描述样本资料的数据特征及其分布规律,是整个统计学的基础。 3.统计推断:用样本信息推论总体特征的归纳过程,它有两个重要领域。 四、误差及其分类 误差指实际观测值与真值之差或样本指标与总体指标之差。 误差分为非随机误差和随机误差, 非随机误差: 粗差--粗心大意,无规律性,可以避免; 系统误差--仪器、方法、等条件的差异,感官、理论和实验方法的差异。 随机误差: 测量误差--由一系列实验或观测条件的随机波动造成的实测值与真值之差; 抽样误差--随机抽样引起的统计量与参数之间的差异。 五、统计工作的基本步骤 研究设计、搜集资料、整理资料、分析资料。 一、频数分布: 含义:是指观测值按大小分组,各个组段内观测值个数的分布,它是了解数据分布形态特征与规律的基础。集中趋势和离散趋势是其两个重要特征。 集中趋势是指一组变量值的集中倾向或中心位置;离散趋势即一组变量值的离散倾向。它们是揭示数据分布的类型和正确进行统计描述与统计推断的前提。 频数分布表(频数表):是观测值或某些类别及其相应的频数按一定顺序排列的表格。 医学参考值范围:是为了减小变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围。 率:表示某现象发生的频率或强度,是频率指标。 构成比:事物内部各组成部分所占整体的比重或分布,常用百分数表示。 相对比:描述两个有关指标的比例关系,指标可以是绝对数、相对数或平均数。 率的标准化:采用统一标准计算各率的标准化率,使各率具有可比性,目的是在比较总率时消除混杂因素的影响。 二、频数分布表/图的作用 1.描述频数分布的集中趋势与离散趋势,直观地揭示数据的分布特征和分布类型; 2.便于发现资料中某些远离群体的特大或特小的可疑值; 3.便于进一步计算统计指标和进行统计分析。 三、正态分布的特征 1.集中性、对称性和均匀变动性; 2. υ和σ是正态分布的两个参数,决定了整个分布图形;υ恒定时,σ越大,表示数据越分散,曲线越矮胖;反之… 3.任何均数为υ、标准差为σ的正态分布N(υ,σ2)都可以转换为均数为0、标准差为1的标准正态分布N(0,1)。 四、制定医学参考值范围的注意事项 1.需根据研究目的选定适当的百分界值,如80%、90%、95%、99%,常用95%; 2.根据指标的实际用途确定单侧或双侧界值; 3.根据资料的分布特点,选用恰当的计算方法; 4.根据专业知识确定是否需要按照年龄、性别等分组; 5.有足够的样本量,一般不低于100例。 五、应用相对数的注意事项 1.计算相对数的分母不宜太小; 2.观察单位数不等的几个率不能直接相加求其合计率; 3.资料对比时应注意可比性; 4.资料分析时不能以构成比代替率。 一、标准误:表示样本指标值在抽样分布中的变异情况,样本均数的标准差也称均数的标准误,描述同一总体中随机抽出n相同的多个样本均数间的离散型。 自由度:是某一统计量中取值不受限制的变量的个数。 二项分布:是对只具有两种互斥结果的离散型随机事件的规律性描述的一种概率分布。 柏松分布:是一种常见的离散型分布,用来描述单位面积、体积、时间、人群内等稀有或罕见事件发生的分布规律。 区间估计:结合样本统计量和标准误确定一个具有较大可信度的包含总体参数的区间,该区间称为总体参数的1—α可信区间。 准确度:是可信区间包含参数的概率大小,用可信度(1—α)表示。可信度越接近1,准确度越高。 精密度:是对参数估计的范围或长度的度量。可信区间的长度越小,其估计的精密度越高。 在可信度确定的情况下,通过增加样本量来减小SE,使得CI(可信区间)的长度减小,从而提高精密度。 二、抽样分布的特点 1.各样本均数未必等于总体均数; 2.各样本均数间存在差异; 3.样本均数呈正态分布; 4.样本均数的变异范围较原变量的变异范围小; 5.随着样本n增加,样本均数的变异程度减小; 6.若原始变量服从正态分布,则统计量服从正态分布。反之,当n较大时,统计量也服从正态分布;当n较小时,统计量为非正态分布。 三、标准差与均数标准误的区别 标准差: 1.随着n的增大逐渐趋于稳定; 2.表示观测值变异大小; 3.结合均数描述正态分布的特征; 4.在正态分布时做参考值范围的估计; 5.计算变异系数和均数的标准误。 均数标准误: 1.随着n的增大逐渐减小,与n的平方根成反比; 2.表示样本抽样误差的大小; 3.描述样本均数的可靠性; 4.结合均数估计总体均数的可信区间; 5.进行均数间差别的假设检验。 一、假设检验:又称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计量)与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。 无效假设:表示差别是由抽样误差引起,无统计学意义,记为H0。 备择假设:表示差别为处理因素所致,有统计学意义,记为H1。 I型错误:统计推断结果拒绝了实际上成立的H0,犯了“弃真”的错误。是指组间差异实际上不存在,统计推断的结果却错误地认为存在组间差异,故称为假阳性错误。 II型错误:统计推断结果不拒绝了实际上是不成立的H0,犯了“存伪”的错误。是指组间差异确实存在,而统计推断结果却未检出该差异,故成为假阴性错误。 二、假设检验的步骤 1.建立检验假设、确定检验水准; 2.选择检验方法、计算统计量; 3.确定P值、作出推论。 独立样本(两样本或成组)t检验的应用条件 1.样本来自同分布的总体,即同质性; 2.样本个体测量值相互独立; 3.两个样本所代表的总体均数服从正态分布; 4.总体方差相等,即方差齐性。 一、完全随机设计:是将全体观察对象按随机化方法分配到各个处理组中,每个观察对象接受每种处理的机会均等。 随机区组设计:将全部受试对象按某种或某些特征分为若干个区组,每个区组内研究对象的特征尽可能相近,每个区组内的观察对象与处理因素的水平数相等,分别使每个区组内的观察对象随机地接受处理因素某一水平的处理。 二、F检验的基本思想 F检验的基本思路是分析变异,即将所有测量值间的总变异按照变异的来源分解为多个部分,通过比较不同来源的变异,推断各处理组间的差异有无统计学意义。因此,F检验法是一种在若干能相互比较的资料中,把产生变异的原因加以区分开来的方法与技术,其实质是关于观测值变异原因的数量分析。 χ2检验 一、χ2检验的基本思想 χ2检验实质上是检验A(实际频数)与T(理论频数)是否吻合及吻合程度,χ2越小,表明实际观察次数与理论次数越接近;χ2=0,表示两者完全吻合;χ2越大,表示两者相差越大。若检验假设成立,则A与T之差不会很大,出现大的χ2值的概率P是很小的,若P<=α(检验水准),就怀疑假设成立,因而拒绝它;若P>α,则没有理由拒绝它。 二、秩和检验:主要用于总体为非正态或不易确定的分布资料、不能或未加精确测量资料等,是效率较高的非参数的检验方法。 直线相关与回归 一、直线相关(简单相关):是用于判断两个变量之间有无直线相关关系,并回答相关的方向和相关程度如何的统计分析方法。 相关系数(r):是说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。 直线回归:是用直线回归方程或数学模型描述两个变量间线性依存关系的一种统计分析方法。 确定系数:相关系数的平方(r2)。 二、相关系数假设检验的注意事项 1.线性相关表示两个变量之间的关系是双向的,当散点图出现直线趋势时再作分析; 2.相关系数的计算只适用于两个变量都服从正态分布的资料; 3.样本相关系数r是总体相关系数ρ的一个估计值,r与ρ之间存在着抽样误差,必须作假设检验; 4.相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系。 三、直线相关与回归的区别与联系 区别:1.相关分析反映应变量y与自变量x间的互依关系,任何一个的变化都会引起另一个的变化,是一种双向变化的关系;回归分析体现y随x变化而变化的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2.相关是对两个变量之间的关系进行描述;回归是对两个变量做定量描述,研究两变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 3.直线相关分析只适用于x、y服从双变量正态分布资料。直线回归既适用于y服从正态分布也适用于x、y服从双变量正态分布资料。 4.r与b的绝对值没有直线联系,b有单位,而r没有。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高;b的绝对值越大,回归直线越陡,说明当x变化一个单位时,y的平均变化就越大。反之也是一样。 5.两事物或现象间存在相关关系,不一定是因果关系,可能只是伴随关系。一旦两事物或现象间存在因果关系,则必然相关。 联系:1.对一组数据若同时计算r与b,它们的正负号是一致的。r为正号说明两变量间的相互关系是同向变化的;b为正说明x增(或减)一个单位,y平均增(或减)b个单位。 2.r和b的假设检验等价,即对同一样本,两者的t值相等。则简单的r的假设检验可以代替对b的假设检验。 3.相关回归可以互相解释。r的平方成为确定系数,r2反映回归效果;确定系数也可从回归角度了解相关程度。 假设检验的分析思路 不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。我们在考试中主要是对前两种方法的把握,其中以两独立样本T检验、单因素方差分析、完全随机设计2X2表的χ2检验、完全随机设计有序分类变量资料的秩和检验为重点。 不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。上图简要列出了不同研究目的、不同数据类型常用的统计分析方法,同学们在考试中可根据题型的资料类型进行选择。 SPSS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。这个过程是上机操作的内容,我们只需要了解操作流程。 一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。 -安徽中医药大学研究生院- -新媒体工作部- 编辑:刘拾凤、王文君 校对:王文君 责任编辑:张瑀 审核:张瑀 |
|