配色: 字号:
03-概率分布(2015研)
2016-05-25 | 阅:  转:  |  分享 
  
举例:某妇产科医生观察1402例临产母亲体重资料(kg),试述其体重频数分布的特征。举例1调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋白的95%参考值范围。举例2:某地调查120名健康成年男性的第一秒肺通气量得均数X=4.2(L),标准差S=0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。基本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。如果某一差异仅是由个体差异和随机误差导致的,那么观察结果服从正态分布。小结正态分布图形有其明确的特征,是一典型的钟形曲线。正态分布的两个参数是均数μ和标准差σ,为了应用方便,常对任意一个正态分布的随机变量X作Z变换,将其转为标准正态曲线。应用正态分布曲线下的面积分布规律,可以估计医学参考值范围,概率及进行质控等分析题:为估计某地居民尿汞值的参考值范围,测得某地200名正常成人的尿汞值如下,试计算尿汞值的95%医学参考值范围。思考题:1.如何判断一组数据是否符合正态分布?根据文献报道根据经验或专业知识判断借助统计软件上的正态性检验2.对称分布在范围内,也包括95%的观察值吗?3.如何判断一组资料是否服从Poisson分布?3.已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8g/L,标准差为3.8g/L,试估计该地正常成年女子血清总蛋白介于66.0~75.0g/L之间的比例,及110名正常成年女子中血清总蛋白介于66.0~75.0g/L之间的人数。答:大样本,可将样本均数、标准差S作为总体μ、σ的估计值,即将其血清总蛋白数近似看作服从N(72.8,3.82)的正态分布。1.将变量作如下标准化变换:2.查u值表得:THANKYOU!去势P-P图:该图反映地是按正态分布计算的理论值和实际值之差的分布情况,分布的残差图。计算题:1.某地抽查120份黄连中小蘖碱含量(mg/100g)得平均数为4.38,标准差为0.18,假设数据服从正态分布,问:(1)95%黄连样品中小蘖碱含量在什么范围?(2)有一份黄连样品,小蘖碱含量为4.80,怎样评价?答案:根据公式另:(4.8-4.38)/0.18=2.33>1.96所以可认为小蘖碱含量不正常。2.某地1998年抽样调查了100名18岁男大学生身高,其均数=172.70cm,标准差=4.01cm。(1)估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;(2)估计该地18岁男大学生身高在177cm以下者占该地18岁男大学生总数的百分数。答案:查附表得,φ(u)=0.1210,即该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的12.10%。查附表得,φ(-1.07)=0.1423,则φ(u)=1-φ(-1.07)=1-0.1423=0.8577即该地18岁男大学生身高在177cm以下者占该地18岁男大学生总数的85.77%。Φ(z2)-Φ(z1)=0.719-0.0367=68.23%3.求所定区间概率:即估计血清总蛋白介于66.0~75.0g/L的比例为68.23%所以110名正常成年女子中血清总蛋白介于之间的人数约为110×68.23%=75人。4.求所定区间的可能人数:现以体重测量值为横轴,以频率与组距的比值(本例为频率/4,表2.1的第5列)为纵轴作出直方图。由于该直方图的纵轴表示在每个组段内单位长所占有的频率,相当于频率密度,因此我们将此图称为频率密度图(见图3.1)现以体重测量值为横轴,以频率与组距的比值(本例为频率/4,表2.1的第5列)为纵轴作出直方图。由于该直方图的纵轴表示在每个组段内单位长所占有的频率,相当于频率密度,因此我们将此图称为频率密度图(见图3.1)当给定不同的x值后,就可以根据此方程求得相应的纵坐标高度(频率密度值),并可绘制出正态曲线的图形,记作X~N(μ,σ2):当给定不同的x值后,就可以根据此方程求得相应的纵坐标高度(频率密度值),并可绘制出正态曲线的图形,记作X~N(μ,σ2):(2)身高在120~128者占该地8岁男孩总数的百分比;(3)该地80%男孩的身高集中在哪个范围?解析:N(123.02,4.792)N(0,1)解析:120cm128cm-0.631.4658.65%58.65%N(0,1)10%10%80%Z1Z210%10%80%X2X1N(123.02,4.792)2.确定医学参考值范围参考值范围(referencerange):指特定“正常”人群的解剖、生理、生化指标及组织代谢含量等数据中大多数个体取值所在的范围。1.所谓“正常人”不是指“健康人”,而是指排除了对所研究的指标有影响的疾病和有关因素的特定人群,必须是随机选择的。2.样本含量足够大:100例以上举例:制定成年健康女性血红蛋白的参考值范围制定步骤:首先要确定一批样本含量足够大的“正常人”进行样本相关指标测量,整理数据,进行资料分布类型的诊断。⑴百分位法:适用于任何分布类型资料,特别是偏态分布资料以及一端或两端无确切数值的资料。如95%参考值范围:P95P5P2.5和P97.5单侧上限单侧下限双侧界值以不同的方法计算参考值范围:0100P2.5P97.5而后根据指标的实际用途确定单侧或双侧界值。根据研究目的和使用要求选定适当的百分界值,最常用的是95%。N(0,1)N(μ,σ2)μ-1.96σμ+1.96σ⑵正态分布法:适用于正态或近似正态分布资料解析:1.分布近似正态2.过高过低均为异常3.求上、下界值正态分布法求参考值范围设定双侧界值上界:下界:所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。单侧临界值:标准正态分布单侧尾部面积等于α时所对应的正侧变量值,记作Zα。若按左单侧算,则是97.5%参考值范围按左单侧算,是95%参考值范围解析:1.分布近似正态2.仅过低为异常3.求下界值正态分布法求参考值范围单侧下限下界:所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。单侧临界值:标准正态分布单侧尾部面积等于α时所对应的正侧变量值,记作Zα。双侧临界值:标准正态分布双侧尾部面积之和等于α时所对应的正侧变量值,记作Zα/2。正确地理解参考值范围:没有绝对的正常和异常,正常中含有“异常”,异常中含有“正常”;不同实验环境、不同仪器检测的灵敏度和精确度不完全一样;某些指标有必要按性别、年龄或其它因素分别制定参考值。3.进行质量控制中心线警戒线警戒线控制线控制线质量控制图质量控制图1质量控制图2目前推崇的接近零不合格过程的有效控制:实现六西格玛质量控制判断异常的8种情况是:有1个点距中心线的距离超过控制线;在中心线的一侧连续有9个点;连续6个点稳定地增加或减少;连续14个点交替上下;连续3个点中有2个点在警戒线外;连续5个点中有4个点距中心线距离超过1个标准差中心线一侧或两侧连续15个点距中心线距离超出都在1个标准差以内;中心线一侧或两侧连续8个点距中心线距离超出都超出1个标准差范围。4.正态分布是许多统计方法的理论基础后续课的内容许多方法,都是以正态分布的原理来分析的。t分布、分布和F分布等都是正态分布基础上推演过来。。。许多非正态分布的资料,当观察例数足够多时,也趋于正态分布,可用近似正态原理来分析,也可将一些非正态分布的资料转化为正态分布来处理。3.1.4正态分布的判断如何判断一组数据是否符合正态分布:1.根据文献报道例如:文献报道中学生的体重、肺活量服从正态分布,则可沿用文献的作法对数据进行处理。2.根据经验或专业知识判断:例如:根据专业知识,同性别健康成人的红细胞数、血红蛋白含量、脉搏数都近似正态分布,而正常人的血铅含量近似对数正态分布。3.用统计软件进行正态性检验:SPSS、SAS、EXCEL等方法绘制图形直接观察专门检验方法考察1.“直方图”或“茎叶图”2.“P-P图”或“Q-Q图”“直方图”或“茎叶图”:可直接地进行观察,但不能直观地给出数据分布与正态分布相关多少的信息2.“P-P图”或“Q-Q图”地:直观地表示数据是否符合所考察的正态分布:P-P图:比较变量的实际累积概率和正态分布的理论累积概率的符合程度。去势P-P图:分布的残差图实际累积概率理论累积概率若残差的绝对值≤0.05,基本认为服从N(0,1)Q-Q图:根据变量的实际分位数和与理论分布进行绘图,并据此判断变量是否服从特定的分布。实际累积值理论累积值若残差的绝对值≤0.05,基本认为服从N(0,1)去势Q-Q图:分布的残差图举例:100名健康成年女子血清蛋白含量表,试对其进行正态性检验。【电脑实现】—SPSS结果输出:绘制图形直接观察:1.直方图2.Q-Q图去势Q-Q图SPSS规定:当n≤5000时,结果以Shapiro-Wilk(W检验)为准;当n>5000时,结果以Kolmogorov-Smirnov(D检验)为准H0:呈正态分布;H1:不呈正态分布α=0.10正态性检验:注意:很多统计方法的前提是变量服从正态分布,应该建立这种意识,对变量是否服从正态分布应该通过检验确定。在SPSS中有很多方法可以进行正态分布的检验,在使用中可以根据自己对SPSS熟悉程度选择一种方法对正态分布进行检验。正态分布是一种重要的连续型变量分布形式。选择题:2.正态分布曲线下右侧5%对应的分位点为A.μ+1.96σB.μ-1.96σC.μ+2.58σD.μ+1.64σE.μ-2.58σ1.正态分布的两个参数,对应的正态曲线平行右移A.增大μB.减小μC.增大σD.减小σE.增大μ同时增大σ3.正态分布的特点有:A.算术均数=几何均数B.算术均数=中位数C.几何均数=中位数D.以上都没有3概率分布统计描述抽样分布—参数估计:点估计、区间估计定量资料算术均数、中位数等集中趋势:离散趋势:极差、四分位数间距、方差、标准差、变异系数定性资料:频率型指标、强度型指标、比统计表和统计图统计推断变量概率分布:正态分布、二项分布、Possion分布假设检验实验设计分组数实验设计:三要素、四原则、实验设计方案、样本含量估算教学内容:非参数检验—秩和参数检验:t检验、方差分析等差异性定性资料定量资料多变量:多重线性回归、logistic回归、生存分析相关回归两变量:简单线性相关、回归分析正态分布(normaldistribution)二项分布(binominaldistribution)Poisson分布(Poissondistribution)连续型变量离散型变量应了解具有普遍意义的、样本所在总体分布的情况,随机变量的分布常见的有三种类型:3.1.1正态分布概念和特征3.1.2标准正态分布.3.1.3正态分布的应用.3.1.4正态分布的判断.3.1正态分布3.1.1正态分布的概念和特征55.072.066.065.069.060.065.053.569.073.056.075.061.076.562.059.5…71.067.060.073.074.368.070.058.065.068.068.070.066.061.062.063.065.068.065.068.064.560.064.056.574.071.565.063.058.065.568.057.070.071.570.568.066.568.068.064.060.076.0表5-1某医院1402例待分娩孕妇体重频数分布①②③④⑤作图:以体重测量值为横轴,频率密度为纵轴作出直方图,此图即称为频率密度图;纵轴表示的是每个组段内单位长度所占有的频率。图5-1体重频率密度图若将各直条顶端的中点顺次连接起来,得一条折线。当样本量n越来越大时,组距越来越小,折线就越来越接近一条光滑的曲线。图5-1体重频率密度图图5-2概率密度曲线示意图正态分布(normaldistribution):是描述连续型随机变量最重要的分布,又称高斯分布(Gaussdistribution)。医学研究中许多正常人的生理、生化指标的变量分布呈正态分布或近似正态分布。图5-1体重频率密度图由于频率的总和为1,所以该曲线下横轴上的面积为1面积=频率正态分布的密度函数,即正态曲线的函数表达式正态分布曲线:两个参数μ和σ决定了x的概率分布,习惯上用N(μ,σ2)表示均数μ,标准差σ的正态分布。μ当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动,所以μ叫正态曲线N(μ,σ2)的位置参数,。⑴位置参数:μ图5-4正态分布位置随参数μ变换示意图σ=1σ=1.5σ=2⑵形状参数:σ图5-6正态分布形态随参数σ变换示意图当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭,σ叫正态曲线N(μ,σ2)的形状参数。1.单峰、对称分布,对称轴x=μ2.正态分布N(μ,σ2)中的两个参数:μ:位置参数,决定曲线在横轴上的位置;μ增大曲线沿横轴向右移,μ减小曲线沿横轴向左移。σ:形状参数,σ越大数据越分散,曲线越“矮胖”,σ越小数据越集中,曲线越“瘦高”。4.x取值从-∞至+∞,相应的概率密度函数f(x)对应的曲线位于X轴的上方,与X轴永不相交,正态变量在x=μ时,概率f(x)取值最大,两边逐渐减少。3.当x=μ时,f(x)取最大值,即均数位于曲线的最高处。峰值为:(5)正态分布曲线下面积的规律1.正态曲线下累计频数的总和等于1,则:横轴上曲线下的面积(概率)就等于或1;均数两侧的面积(概率)各占50%。-∞ab-∞a99.00%μ±2.58σ95.00%μ±1.96σ90.00%μ±1.64σ面积规律正态分布2.正态曲线N(μ,σ2)下,如下x值对应的面积规律:3.1.2标准正态分布由μ,σ决定的正态分布曲线N(μ,σ2)具有多样性..为了应用方便,常将正态概率函数中的x作如下变量代换,令:Z称叫对应于观测值x的标准得分(standardscore)。把Z代入概率密度函数,得标准正态分布的概率密度函数:相对于正态变量x,Z没有度量单位。根据u的不同取值,可绘出标准正态分布的图形。sm-=xZ+¥<<-¥=ZeZZ,21)2/pj-(2任意正态分布曲线X~N(μ,σ2)标准正态分布曲线X~N(0,1)将一般正态分布曲线的μ的位置平移到原点,再以标准差σ为横轴单位,这样就把原来个别的正态分布转换为一般的标准正态分布N(0,1),亦称为Z分布。采用定积分的办法,对函数式(1)或(2)定积分,算得从-∞到x累计面积,从而推算出该区间事件发生的概率值。.图6正态分布(左)及标准正态曲线下(右)的累计面积dZZò¥-=2221)(pjeZZ-/例3-1:设Z~N(0,1),试计算:(1)Z取值区间在(-∞,-1.96)内的概率P?(2)Z取值区间在(+1.96,+∞)内的概率P?(3)Z取值区间在(-1.96,+1.96)内的概率P?解析:Z~N(0,1)-1.962.5%2.5%+1.9695%故:求一般正态分布N(μ,σ2)曲线下的面积:⑴先求Z值:⑵根据Z值在表中查出相应的面积值当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替计算。所以对正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略估计了。,sxxZxZ-=-=未知:已知:smsmsm,X=μ-1.96σ时,所对应的左侧累积概率是多少?X=μ+1.96σ时,所对应的右侧累积概率是多少?X在(μ-1.96σ,μ+1.96σ)间对应概率是多少?正态分布N(μ,σ2)下:Z~N(0,1)2.5%2.5%+1.9695%-1.962.5%2.5%μ+1.96σμ-1.96σN(μ,σ2)95%常用的正态分布、标准正态分布曲线下面积规律99.00%0±2.58μ±2.58σ95.00%0±1.96μ±1.96σ90.00%0±1.64μ±1.64σ面积规律标准正态分布正态分布3.1.3正态分布的应用1.概率计算:120名8岁男孩身高均数123.02cm,标准差为4.79cm,试估计:(1)身高在130以上者占该地8岁男孩总数的百分比;(2)身高在120~128者占该地8岁男孩总数的百分比;(3)该地80%男孩的身高集中在哪个范围?解析:N(123.02,4.792)N(0,1)130cm1.467.21%7.21%体重组段 频数 频率

(频数/总频数) 累积频率 频率密度

(频率/组距) 48- 6 0.0043 0.0043 0.0011 52- 54 0.0385 0.0428 0.0096 56- 162 0.1155 0.1583 0.0289 60- 293 0.2090 0.3673 0.0522 64- 359 0.2561 0.6234 0.0640 68- 298 0.2126 0.8359 0.0531 72- 140 0.0999 0.9358 0.0250 76- 70 0.0499 0.9857 0.0125 80- 17 0.0121 0.9979 0.0030 84-88 3 0.0021 1.0000 0.0005 合计 1402 1.0000















































































































献花(0)
+1
(本文系浮云小豆豆首藏)