配色: 字号:
第18章 如何表达与描述统计资料
2017-10-10 | 阅:  转:  |  分享 
  
第18章如何表达与描述统计资料18.1五种常见的平均指标算数均数、几何均数、中位数、众数、调和均数。18.1.1何为算数均数算数均数(
arithmeticmean)简称均数(mean),总体均数用希腊字母μ表示,样本均数用X表示。适合于对称分布资料,这时均数位于
分布的中心,能非常好地反映全部观察值得平均水平。特别是正态分布或近似正态分布资料,均数有非常重要的作用。18.1.2何为几何均数
几何均数(geometricmean,G)适用于原始观察值(性质相同的定量数据)分布呈偏态分布,但经取对数变换后呈对称分布的资
料,如对数正态分布资料。医学中常见的抗体滴度资料,观察值间常呈倍数关系,变化范围跨越多个数量级。其频率图一般呈正偏峰分布,这时均数
不能反映其代表水平,宜用几何均数描述。18.1.3何为调和均数对n个性质相同的定量数据分别取倒数变换后,按算数均数计算,然后再求
其倒数所得的结果,叫做调和均数(harmonicmean)。主要是用来解决在无法掌握总体单位数(频数)的情况下,只有每组的变量值
和相应的标志总量,而需要求得平均数的情况下使用的一种数据方法。调和平均数具有以下几个主要特点:①调和平均数易受极端值的影响,且受极
小值的影响比受极大值的影响更大。②只要有一个标志值为0,就不能计算调和平均数。③当组距数列有开口组时,其组中值即使按相邻组距计算,
假定性也很大,这时的调和平均数的代表性很不可靠。④调和平均数应用的范围较小。在实际中,往往由于缺乏总体单位数的资料而不能直接计算算
术平均数,这时需用调和平均法来求得平均数。注意事项(1)当变量数列有一变量X的值为零时,调和平均数公式的分母将等于无穷大,因而无法
求出确定的平均值。(2)调和平均数和算术平均数一样,易受两极端值影响。上端值越大,平均数向上偏离集中趋势就越大。反之,下端值越大,
平均数向下偏离集中趋势越大。(3)要注意区分调和平均数和算术平均数的使用条件,因事制宜。18.1.4何为中位数中位数(media
n,M)是指将原始观测值从小到大或从大到小排序后,位次居中的那个数。中位数适用于各种分布的资料,特别是偏峰分布资料。由于中位数不是
利用全部观测值计算出来的,它只与位次居中的观测值大小有关,因此它不受分布两端特大或特小值的影响。对分布末端无确定值的资料,不能计算
均数和几何均数时,可以计算中位数。18.1.5何为众数众数(mode)是一组数据中出现次数最多的变量值,用M0表示。它主要用于作
为定序数据以及定距和定比数据集中趋势的测度值。用众数代表一组数据,可靠性比较差,不过,众数不受极端数据的影响,并且求法简便,当数值
或被观察者没有明显次序(常发生于非数值性资料)时特别有用。18.2两种能消除极端值影响的平均指标分别是什么18.2.1何为切尾
均数切尾均数(trimmedmean)又称“切尾均数”,是指在一个数列中,去掉两端的极端值后所计算的算数均数。切尾均数是综合了均
值和中位数两种计量优点的一种新的对集中趋势测度的计量。切尾均数现已广泛应用于电视大奖赛、体育比赛及需要由人们进行综合评价的竞赛项目
。18.2.2何为Winsor化均数Winsor化均数(Winsoriedmean)是在两端各删除g个数据之后,以剩余数据的最
大值及最小值各补上g次,使原来的变量维持n个数据。18.3五种变异指标分别是什么变异指标就是度量一组性质相同的定量资料中的每一个
离开其均值的离散程度大小的指标。指标的种类有:极差、四分位数间距、标准差、标准误、变异系数,其中最常用的是标准差和标准误。18.3
.1何为方差(1)样本方差:指一组性质相同的定量数据中的每一个与其样本算数平均值的差量的平方和除以数据个数与1的差量。(2)总体
方差:一组性质相同的定量数据中的每一个与其总体算数平均值的差量的平方和除以数据个数,所得的结果叫做总体方差。18.3.2何为标准
差标准差就是方差的算数平方根,可分为样本方差和总体方差。用于反映近似正态分布的定量资料的离散度大小。样本标准差S==总体标准差σ
==18.3.3何为极差极差就是指一组性质相同的定量数据中最大值与最小值之差。18.3.4何为变异系数变异系数是指标准差与
算数平均值之比值(通常以百分数形式表示),记作CV,其公式为:CV=100%18.3.5何为分位数间距令QR=Q3–
Q1,则QR就叫做四分位数间距,其数值的大小,标志着一组呈偏态分布定量资料居中的50%数值的离散度的大小。可以用(P97.5-P2
.5)来反映一组呈偏态分布定量资料居中的95%数值的离散度的大小。18.3.6何为标准误标准误:统计量的标准差,叫做标准误。样本
平均值的标准误记作,样本率的标准误记作,变异系数的标准误记作.参数:反映总体中数据分布特征的量,称为参数。统计量:由样本数据确定的
,不含任何未知参数的统计指标,叫做统计量。大样本:n至少要大于30,最好大于100.18.4三种稳健尺度分别是什么样本标准差是尺
度估计中最常用的统计量,对异常值很敏感。稳健尺度估计就是当样本值被一个或大或小的值替代时保持稳定。一些尺度的稳健性测量,包括四分位
数间距,关于中点的中位绝对离差值(MAD),Qn和Sn。18.5如何正确使用“S”与“”表达定量资料严格地说,无论是用“S”还是
用“”表达定量资料的结果,都要求资料满足正态分布。当资料符合此要求时,用这两种方式表达,含义是不同的。(1)“S”反映的是在相同实
验条件下,观测值在样本均值附近的波动大小,同时,标准差S的大小,还反映了实验的重现性的好坏,即实验的精密度的高低。(2)“”反映的
是在相同实验条件下,样本均值与总体均值的接近程度,并且,隐含着总体均值会以一定的概率(具体值与样本含量n的大小有关)落入“”的范围
内。同时,均值的标准误的大小,还反映了实验准确度的高低。(3)实际应用中应先对资料作正态性检验,若资料满足正态性,可根据不同目的,
分别选用上述两种方式之一表达结果。若资料不满足正态性,常有两种对策:其一,作变量变换,看资料经过某种变换(最常用的变换方法之一是取
对数)后是否满足正态性要求,若满足,可用上述两种方法之一表达变换后的数据;其二,若未找到合适的变换方法,只好采用偏态资料的表示方法
M(Q1~Q3)或M(QR)。这里,用M(Q1~Q3)表达优于用M(QR)表达,因为它显示出了居中的50%定量数据所在的范围。18
.6如何正确使用M(Q1~Q3)或M(QR)表达定量资料M(QR)代表中位数与四分位数间距,四分位数间距可以表示一组数据的离散趋
势,适用于集中趋势用中位数表示的资料。四分位数间距大,表示数据较为分散;四分位数间距小,表示数据离散度小,较为集中。18.7如何
使用SAS实现平均指标与变异指标的计算DATAmercury;inputmercury@@;g=log10(mercury)
;h=1/mercury;cards;0.60.80.91.11.21.41.51
.61.81.92.12.22.42.52.62.82.93.13
.23.43.53.63.83.910.110.210.410.14.24.
24.34.44.54.54.64.74.84.84.95.05
.15.25.25.35.45.55.55.65.75.85.8
5.96.06.16.26.26.36.46.56.56.66.7
6.86.86.97.07.17.27.27.37.47.57
.57.67.77.88.18.18.28.38.38.48.5
8.58.68.78.78.88.98.99.09.19.19.2
9.39.39.49.59.59.69.79.79.89.99.
910.010.110.110.210.310.310.410.510.510.610.7
10.710.810.910.911.011.111.111.211.311.311.4
11.511.511.611.711.711.811.912.112.212.212.3
12.412.512.512.612.712.812.812.913.013.113
.213.213.313.413.513.513.613.713.813.813.914.
014.114.214.214.314.414.514.514.614.714.814.
814.915.015.115.215.215.315.415.515.515.615.
715.815.816.116.216.316.316.416.516.616.71
6.816.816.917.017.117.217.317.317.417.517.617
.717.817.817.918.018.118.218.318.318.418.518.
618.718.818.818.919.019.119.219.319.319.419
.519.619.719.820.220.320.520.720.821.021.22
1.321.521.721.822.022.222.322.522.722.823.02
3.223.323.523.724.224.424.724.925.125.325.625
.826.026.226.426.726.927.127.328.328.628.9
29.129.429.730.030.330.630.931.131.432.432.8
33.237.634.034.434.835.235.627.827.737.738.2
38.839.39.940.69.941.942.545.346.5;run;ODSHTM
L;procunivariatedata=mercurytrim=3winsor=3;varmercurygh;ou
tputout=aaamean=mean_mmean_gmean_h;run;DATAabc;setaaa;g_mea
n=10(mean_g);h_mean=1/mean_h;procprintdata=abc;varg_meanh_m
ean;run;ODSHTMLCLOSE;基本统计测度位置变异性均值1.070607标准差0.32934中位数1.118923
方差0.10846众数0.995635极差1.88930??四分位间距0.36911基本统计测度位置变异性均值0.123946标准
差0.17176中位数0.076047方差0.02950众数0.099010极差1.64516??四分位间距0.0694018.8
如何正确使用统计表表达资料18.8.1一般统计表的要素和模式是什么凡是由“文字、数字、线条”等组合而成的信息集合,都可称之为统
计表。表18-1统计表的模式总的横标目总的纵标目(指标)纵标目:各行书写具体的横标目内容表体内书写与“总的纵标目"对应的绝对数或
相对数统计表由“标题、线条、纵标目、横标目、数字”等组成。标题:相当于一篇文章的题目。线条:线条是统计表与一段文字之间最为明显地区
别。纵标目:用以自上向下说明问题的概括性语言或短语。横标目:用以从左向右说明问题的概括性语言或短语。18.8.2人们编制统计表时
最容易犯的错误是什么1)表中数据的含义未表达清楚,给读者正确理解统计表所表达的真实内容增添了困难;2)统计表的标题过长、主语谓语位
置颠倒;3)线条过多;4)数据的小数位保留得不一样多;5)表中有很多空格;6)将备注内容写在表体内。18.8.3如何编制出有实用
价值的频数分布表18.9如何正确使用统计图表达资料%letfreq_home=D:\MXWTTJXF;libnamefre
q"&freq_home";OPTIONSMSTOREDSASMSTORE=freq;datafreq.aa;input
mercury@@;cards;0.60.80.91.11.21.41.51
.61.81.92.12.22.42.52.62.82.93.13
.23.43.53.63.83.910.110.210.410.14.24.
24.34.44.54.54.64.74.84.84.95.05
.15.25.25.35.45.55.55.65.75.85.8
5.96.06.16.26.26.36.46.56.56.66.7
6.86.86.97.07.17.27.27.37.47.57
.57.67.77.88.18.18.28.38.38.48.5
8.58.68.78.78.88.98.99.09.19.19.2
9.39.39.49.59.59.69.79.79.89.99.
910.010.110.110.210.310.310.410.510.510.610.7
10.710.810.910.911.011.111.111.211.311.311.4
11.511.511.611.711.711.811.912.112.212.212.3
12.412.512.512.612.712.812.812.913.013.113
.213.213.313.413.513.513.613.713.813.813.914.
014.114.214.214.314.414.514.514.614.714.814.
814.915.015.115.215.215.315.415.515.515.615.
715.815.816.116.216.316.316.416.516.616.71
6.816.816.917.017.117.217.317.317.417.517.617
.717.817.817.918.018.118.218.318.318.418.518.
618.718.818.818.919.019.119.219.319.319.419
.519.619.719.820.220.320.520.720.821.021.22
1.321.521.721.822.022.222.322.522.722.823.02
3.223.323.523.724.224.424.724.925.125.325.625
.826.026.226.426.726.927.127.328.328.628.9
29.129.429.730.030.330.630.931.131.432.432.8
33.237.634.034.434.835.235.627.827.737.738.2
38.839.39.940.69.941.942.545.346.5;run;%freqOn
eSample(data=freq.aa,out=freq.result,group=12);18.9.1统计图的概况是什么统计
图的分类:表达离散资料的统计图:单式条图、复式条图、百分条图、构成图、圆图等;表达离散资料的统计图:盒须图、直方图、多边图、二维散
布图、三维散布图、普通线图、半对数线图、等势面图等;表达事物或现象在区域或空间上分布情况的统计图:统计地图、曲面图等。若在一幅图中
涉及两种或两种以上处理且想显示每一种处理条件下实验结果随时间变化的速度宜选用半对数线图,即纵轴应取对数尺度,横轴仍取算术尺度。18
.9.2人们绘制统计图时最易犯的错误是什么18.9.3各种常见统计图的适合场合分别是什么(1)条图(barchart)适合用
来表达定性变量各水平组中的数量大小。分为单式条图和复式条图。(2)百分条图(percentagebarchart)它通常用于反
映局部与整体之间的关系,因此要求各项之间彼此是有联系的,且各项百分数之和为100%。(3)构成图(constituentchar
t)反映某整体内部各部分的数量大小时,可以用复式条图,也可以用构成图。(4)圆图(piechart)它通常用于反映局部与整体之间
的数量关系,因此,通常用相对数作为统计指标来绘制圆图,而且,要求各组之合计必须为100%。包括单式圆图和复式圆图。(5)镶嵌图(m
osaicplot)描述定性变量取不同水平时,频数或百分比数值大小的图。适于绘制条图和圆图的资料,都可以绘制镶嵌图。(6)箱式图
或盒须图(boxplotorbox-whiskersplot)适于粗略表达一组定量资料的分布情况。(7)直方图(histo
gram)适于表达一组定量资料的频数分布情况。(8)散布图(scatterplot)适于表达两个在专业上有联系的定量指标同时变化
的趋势。包括二维散布图和三维散布图。(9)线图(linechart)线图适于表达某种事物或现象随时间推移的变化幅度和速度。包括普
通线图与半对数线图。半对数线图:纵、横轴上有一个使用算术尺度,另一个使用对数尺度的线图,称为半对数线图。它实际上反映的是事物或现象
随时间推移的变化速度(不是幅度!),即一组数据中最大值与最小值之商。我们建议:当图中有两条或多条折线时,绘制半对数线图为宜。(10)P-P图将定量指标的观测值按由小到大的顺序排列,然后计算其实际累积频率,以实际累积频率对被检验分布(例如正态分布)的理论累积频率作图,称为P-P图。若原始资料确实服从假定的概率分布,那么,图形大体上将呈直线。(11)Q-Q图将定量指标的观测值由小到大的顺序排列,以实际观测值对被检验分布的理论分位数作图,称为Q-Q图。若原资料确实服从假定的概率分布,那么,图形大体上将呈直线。(12)概率图(probabilityplot)用于反映定量观测指标是否服从某种特定概率分布。通常,将定量观测指标由小到大的顺序排列,然后计算其累计百分位数,并将各观测点上的累计百分位数与特定概率分布的分布函数对应起来,从而也就能找到各分位点与服从特定概率分布的随机变量之间的对应关系。若原资料确实服从假定的概率分布,那么这两个变量之间就应呈直线关系。注意:P-P图是将实际累计频率与理论累计频率作图,而概率图是将一组排序后的观测数据与某一特定分布的理论百分位数比较,Q-Q图则涉及观测数据与理论分位数。Q-Q图与P-P图相比较,Q-Q图效率较高。概率图与Q-Q图较为相似,需要注意的是一个是百分位数,另一个是分位数,Q-Q图在分布参数的图形估计方面要优于概率图,而概率图可以更好的表示出百分位数。18.10如何用SAS绘制常用的统计图
献花(0)
+1
(本文系勤悦轩首藏)