Excel中一些常用统计分析工具的功能操作和注意事项 |
|
|
第24卷第2期(总第140期)辐射防护通讯2004年4月
·讲座·
①Excel中一些常用统计分析工具的功能、操作和注意事项
Functions,OperationsandPrecautionsof
theStatisticallyAnalyticalToolsofExcel
胡逢全肖运实(中国辐射防护研究院,太原,030006)
HuFengquanXiaoYunshi(ChinaInstituteforRadiationProtection,太原,030006)
摘要在当今科研及其成果报告中,成熟的统计分析软件被广泛使用。本文介绍Excel(中文版)中一些常用统计
分析工具的功能、操作和注意事项;指出了在实例检验中发现此软件中存在的一些缺陷和问题,强调进行全面的实
例检验对正确使用此软件和深入学习数理统计的基本原理及重要概念均有重要价值。
关键词:Excel统计软件统计描述统计检验方差分析相关和回归
中图分类号:TP317.3文献标识码:A文章编号:100426356(2004)0220033208
AbstractThematurestatisticallyanalyticalsoftwareiswidelyusedinthescientificresearches
andtheresultantreportsnowadays.Thispaperistodescribethefunctions,operationsand
precautionsofthestatisticallyanalyticaltoolsofExcel(Chineseedition)incommonuse,
indicatingseveraldrawbacksandproblemsdiscoveredincasetest.Itisunderscoredthat
conductingcomprehensivecasetestwillbeofgreathelpincorrectiveapplicationofExcel’stools
andseriousstudyofthefundamentalofmathematicalstatistics.
Keywords:ExcelStatisticalsoftwareStatisticaldescriptionStatisticaltest
VarianceanalysisCorrelationregression
1引言
在科研及其成果报告中,数据的统计和分析
是保证和提高质量的一个十分重要的步骤。随着
计算机的普遍使用,现成的如Sas、Spss和Excel
这些国际公认的成熟的统计分析软件的出现,使
统计分析的应用越来越便捷、准确和有效。由于
Excel有中文版,加上已有很多应用手册、培训班
和电视讲座,目前国内辐射防护界科研和工作人
员,已较普遍地能把Excel作为一般的电子表格
程序应用,将如辐射监测等数据用Excel表格汇
总给出;但很少使用Excel中十分有用的统计检
验、方差分析及相关和回归等统计分析工具,
Excel的应用手册中也没有介绍这方面的内容。
本文主要介绍Excel中一些常用统计分析工具的
功能、操作和注意事项。笔者在使用Excel中的统
计分析工具中,逐一用过去做过的统计分析的例
题作了检验,发现其中有些描述不当或缺陷(或错
误),为此特别在表格中以“注意事项”给出,并在
建议中予以强调,这些对防止应用错误是十分重
要的。
2Excel常用统计分析工具介绍
表1~表5给出的依次是Excel中有关统计
描述、t检验和F检验、V2检验、方差分析、相关与
回归分析等统计分析工具的功能、操作和注意事
项。在Excel中的这些统计分析工具,分别在“插
—33—
①收稿日期:2003212223
作者简介:胡逢全(19402),男,1965年毕业于北京大学技术物理系核物理专业,研究员。
入”菜单下的“fx函数→统计”和“工具”菜单下
“数据分析”中(如果“工具”菜单下没有这个命令,
则需要安装“分析工具库”,可以在“工具”菜单中,
单击“加载宏”命令,选择“分析工具库”,详情参见
Excel帮助)。在表中的“粘贴函数或分析工具”
中,分别表示所使用的“粘贴函数”和“分析工
具”。为了便于区分和阐述,凡是在Excel统计分
析工具的输入和输出数据框中所用的量名或标
志,在本文及其各表中均打上“”号,如“x”、
“standard2dev”、“array1”等。
表1Excel中有关统计描述的功能、操作和注意事项
粘贴函数或
分析工具功能及其输出结果输入参数注意事项
工具→
数据分析→
统计描述1)
以列表方式给出输入的一组
或多组数据各自的以下统计
参数:均值、单次测量标准差、
样本容量、范围;均值标准差、
95%置信区间半宽度;合计、
中位数、方差;峰度、偏斜度;
最大值、最小值、第几个最大
和最小值。
(1)在“输入区域”,输入包括标志单
元在内的数据的区域(以单元格起止
位置表示);
(2)在“分组方式”中选择按列还是
按行排列,并选中标志位于第1行;
(3)按输出内容要求,选择“汇总统
计”、置信区间的置信度及第几个最
大值、最小值;
(4)输出表的位置(输出区域的起始
单元格)。
(1)输出参数的译名,与通常或标准术语
有的差别很大,如:“置信度”、“标准误
差”、“标准偏差”、“区域”和“计数”实际上
分别是置信区间半宽度、均值标准差、单
次测量标准差、最大与最小值之差和样本
容量(或样品数);
(2)“峰值”就是通常用于检验正态分布
的“峰度”,但是减去了3,即是a4-3;
(3)用一二个“粘贴函数”计算的参数值,
可检验输入有否错误。
average2)给出一组数据的算术平均值输入数据的区域(不包括标志单元)
stdev
给出一组数据的单次测量标
准差,在Excel中常又称“样
本标准偏差”
同上
count给出一组数据的样本容量同上
var给出一组数据的方差同上
confidence
给出一组数据均值的置信区
间半宽度,但它是按u统计量
计算的,即按t=1.96计算
(与样品数无关)
(1)在“alpha”中输入显著性水平,即
A值;
(2)在“stadard2dev”中输入单次测量
标准差;
(3)在“Size”中输入样本容量。
(1)输入参数“standard2dev”,不是
confidence框中所写的已知总体标准差,
而是样本标准偏差;
(2)给出的不是自由度为(n-1)的置信
区间,而是自由度为∞时的置信区间;
(3)给出的不是置信区间,而是置信区间
的半宽度。
kurt给出一组数据的峰度输入数据的区域减了3的峰度值a4-3,a4是第4阶原点矩
skew给出一组数据的偏斜度同上
covar给出两组数据的协方差在“array1”和“array2”分别输入两组数据的区域(不包括标志单元)
sum给出一组数据的合计(总和)输入数据的区域
median给出一组数据的中位数同上
mode给出一组数据的众数同上
max给出一组数据的最大值同上
min给出一组数据的最小值同上
precentile
给出一组数据的第p位百分
位数Pp
(1)在“array”中输入数据的区域;
(2)在“K”中输入p100(如第50
位百分位数,p=50,则K=0.5)
K=p100,p为第几位百分位数的序号
1)由下拉菜单的操作途径为:工具→数据分析→分析工具→统计描述,以下只给出分析工具的名称,省略菜单操作路径;
2)本文所有表中列出的“粘贴函数”全部是在“fx→统计”分类下的粘贴函数。
—43—
辐射防护通讯2004年4月第24卷第2期
表2Excel中有关t检验和F检验的功能、操作和注意事项
粘贴函数或
分析工具功能及其输出结果输入参数注意事项
Ttest
已知比较的两组数据,给出
t检验的概率“p”,即可能
犯第一类错误的概率(否定
原假设可能犯错误的概
率),p的含义下同
(1)在“array1”和“array2”中分别输入两组
样本数据的区域,分别以各自的单元区域表
示,如D4:D13和E4:E15;也可用$D$4:
$D$13和$E$4:$E$15;
(2)在“tails”选框中选择单侧还是双侧检
验:输入1和2,分别代表单侧和双侧;
(3)在“type”选框中选择成组还是成对检
验:输入1、2和3分别代表成对、方差相等
的成组和方差不等的成组检验
只用于两组数据间的t检验,不能用
于一组样本数据的参数与总体参数
间的t检验
Tdist
已知比较数据的t值和自由
度,给出成组比较t检验的
概率p
(1)在“X”中输入由比较数据算得的t值;
(2)在“deg2freedom”中输入自由度df;
(3)在“tails”选框中选择单侧还是双侧检
验:输入1和2分别代表单侧和双侧
只能给出成组等方差的t检验结果;
也可用于一组样本数据的参数与总
体参数的t检验
Tinv
已知双侧检验的概率和自
由度,给出相应的t分布的
上侧分位数,即通常所称的
临界值,相当于tA2,df表
(1)在“probability”中输入预定的双侧t检
验的(否定区)概率A;
(2)在“deg2freedom”中输入自由度df
输入的概率,应是双侧的A(不能是
A2);给出的是双侧的上侧分位数,
也是概率为A2时的单侧的上侧分
位数
t检验:
平均值的
成对二样
本分析
以列表形式给出包括以下
内容的结果:各组样本数据
均值、方差和样品数;两组
数据按成对合并后的方差、
自由度和t值;成对t检验
双侧和单侧检验的概率p;
选定A下双侧和单侧的t临
界值
(1)在“变量1”和“变量2”中分别输入两组
比较数据的区域〔包括“标志”(即数据名称)
单元〕;
(2)选中“标志”选框;
(3)在“A”选框中填入预定的显著性水平
值A;
(4)输出区域(给出起始单元格);也可另在
新工作组表中给出,余处类同
(1)主要功能与Ttest相同,但给出
了中间阶段的更多信息;
(2)若只要检验结果,用Ttest更简
易,结果便于直接并入数据表内;
(3)可用于检验Ttest和均值、方差
等参数的粘贴函数计算结果;
(4)输出数据框中样品数误译为观
测值
t检验:
双样本等
方差假设
除给出方差相等的成组t检
验结果外,输出包含的内容
同上
同上
同上
t检验:
双样本异
方差假设
除给出方差不等的成组t检
验结果外,输出包含的内容
同上
同上
同上
Ftest
已知比较的两组样本数据,
给出双侧F检验概率p
在“array1”和“array2”中分别输入两组样本
的数据区域
给出的不是Ftest数据框中指出的单
侧检验的概率“p”而是2p,即双侧
F检验的概率
Fdist
已知比较的两组数据的F
值及各组数据的自由度,给
出单侧F检验的概率“p”
(1)在“X”中输入F值,如var1var2(两组
数据的方差之比);
(2)在“deg2freedom1”和“deg2freedom2”中
分别输入两组数据的自由度df1和df2
(1)Fdist数据框中没有说明给出的
概率是单侧还是双侧的,实际上给出
的是单侧的“p”;
(2)df1和df2不能颠倒,计算F值
时分子数据对应的为df1;
(3)常用双侧检验,其概率应乘以2
Finv
已知单侧F检验的概率A
及两组数据各自的自由度,
给出F统计量单侧分位数,
即FA,df1,df2,
(1)在“probability”中输入单侧F检验(否
定区)的概率A;
(2)在“deg2freedom1”和“deg2freedom2”中
分别输入两组数据的自由度df1和df2
(1)同上;
(2)用于双侧,“probability”要输入
A2
F检验:
双样本方
差”(比较)
以列表形式给出包括以下
内容的结果:各组样本数据
均值、方差和样品数;两组
数据合并的自由度和F值;
单侧检验的概率p;选定
A(0.05)下单侧的F临界值
(1)在“变量1”和“变量2”中分别输入两组
比较数据的区域(包括“标志”单元),并选中
“标志”选框;
(2)在“A”选框中填入预定的显著性水平
值;
(3)输出区域(给出起始单元格)
给出的是单侧检验的概率“p”,对双
侧检验的概率,要乘以2
—53—
Excel中一些常用统计分析工具的功能、操作和注意事项胡逢全
表3Excel中有关V2检验的功能、操作和注意事项
粘贴函数功能及其输出结果输入参数注意事项
Chitest
已知一组数据在一
定分组条件下,在各
区段内的实际频数
和(假定满足某种分
布的)理论频数,给
出判定是否满足该
分布的V2检验的概
率“p”,但其自由度
固定为(n-1),n
为分组的区段数
(1)在“actual2
range”中输入实
际频数的数据区
域,如C5:C14;
(2)在“expected2
range”中输入理
论频数的数据区
域,如D5:D14
(1)各区段的实测频数和理论频数,在chitest框中分别为“actual2range”
和“expected2range”,并分别译为“观察值的值域”和“理论值的值域”均
是不合适的;
(2)输出的是自由度为(n-1)的单侧V2检验的概率p,而实际中自由
度不是(n-1),而是(n-k),k是计算理论频数时所用的包括总频数
在内的统计量数(如样本均值、样本标准差),所以在配合泊松分布和正
态分布的V2检验时,自由度分别为(n-2)和(n-3);
(3)可由Chitest给出的概率p和自由度(n-1),作为Chiinv的输入参
数,得出相应的V2值;再将这个V2值和实际的自由度(n-2)或(n-3)
作为Chidest的输入参数,才能给出所需的对应实际自由度配合分布的
V2检验的概率;
(4)V2分布随自由度变化十分明显,尤其在自由度小的时候,所以用
Chitest时,纠正其结果与实际自由度的差别是十分重要和必需的
Chidist
已知V2值和自由度,
给出单侧V2检验的
概率“p”
(1)在“X”中输
入已知(或已算得
的)V2值;
(2)在“deg2
freedom”中输入
相应的自由度df
(1)给出的p是单侧检验的概率;在双侧检验时,若A=0.05,接受和否
定原假设的判据是:0.025≤p≤0.975和p<0.025或p>0.975;
(2)在chidist框中,给出的结果译为“返回V2分布的收尾概率”,需注意
上面的实际含义,这类难理解的翻译很多
Chiinv
已知单侧检验的概
率A和自由度df,
给出相应的V2分布
的分位数V2A,df,功
能同通常数理统计
书中的V2分布表
(1)在
“probability”中输
入预选的概率A;
(2)在“deg2
freedom”中输入
相应的自由度df
在chiinv框中,给出的结果译为“返回具有给定概率的收尾V2分布的区
间点”,注意在“功能和输出结果”中所述的实际含义
表4Excel中有关方差分析的功能、操作和注意事项
分析工具功能及其输出结果输入参数注意事项
方差分析:
单因素方差
分析
以列表方式给出满足各组方差齐性条件
下(无论各组重复测量数是否相同)的单
因素方差分析结果:在“summary”表中给
出各组的样本容量、总和、均值和方差;在
“方差分析”表中给出组间、组内和总计的
平方和(SS)、自由度(df)、均方
(MS),以及F临界值、F值及其相应的
概率p
(1)在“输入区域”输入数据
的区域,包括标志行(或列);
(2)在“分组方式”中,选择按
列还是按行,并选中“标志位
于第1行”;
(3)选择显著性水平A;
(4)选择输出表的位置
(1)没有指出适用条件是方差须齐
性,是否齐性,多数情况下可以由比
较各组方差大小大致判定;
(2)即使p 等的原假设被否定,但哪些组间存在
显著差异,还需由多重比较求得,而
Excel中没有现成的这类程序;所以,
多数情况为获得单因素方差分析的
结果,不如用t检验更方便
方差分析:
无重复双因
素方差分析
在“sammary”表中分别给出各行和各列
数据的样本容量、总和、均值和方差;在
“方差分析”表中给出行间、列间、误差和
总计的以下各值:平方和(SS)、自由度
(df)、均方(MS);以及分别给出行间和
列间均方对误差均方的F值及其相应的
概率p和F临界值
(1)在“输入区域”输入数据
的区域,包括标志行和列;
(2)选中“标志”;
(3)选择显著性水平A;
(4)选择输出表的位置
仅用于没有重复测量的双因素方差
分析
方差分析:
可重复双因
素方差分析
基本同上,但在“方差分析”表中增加给出
反映有否交互作用的F值及其相应的概
率p和F临界值,当然也定有交互项的
SS、df和MS
(1)在“输入区域”输入数据
的区域,包括标志行和列;
(2)在“每一样本的行数”中
输入重复测量(或样品)数;
(3)选择显著性水平A;
(4)选择输出表的位置
仅用于重复测量数相同条件下的双
因素方差分析,表的设计有专门要
求,即重复样品的数据要分别排在同
列的不同行内,如重复数=4,则每
种“处理”的4个数据,要排在同列的
4行中
—63—
辐射防护通讯2004年4月第24卷第2期
表5Excel中有关回归和相关分析的功能、操作和注意事项
粘贴函数或分析工具功能及其输出结果输入参数注意事项
回归
在“summary”表中给出
(线性回归的)相关系数
R、R2、回归的误差SE;
给出截距、斜率及其误差
和置信区间;还可选择给
出残差表、残差图和拟合
曲线图,在拟合图上还可
进一步给出拟合方程(线
性、对数、指数、多项式)
的拟合曲线及其方程和
R2
(1)在“Y值输入区域”和“X
值输入区域”分别输入因变量
和自变量的区域(不包括标
志);
(2)选中“标志”,选择是否要
求通过原点和置信水平;
(3)在“残差”选框中分别选
择是否要求输出残差、标准残
差、残差图和拟合曲线图;
(4)输出图表的位置
(1)数据必须按列排列,不能按行排列!
(2)Y必须是因变量,而X是自变量,不能
颠倒!否则截距、斜率值及其误差和置信区
间等均将不同;
(3)在“summaryoutput”的最后1个子表
中,第1行以intercept为栏名的是截距行,
第2行以自变量标志为栏名的是斜率行,依
此可以判定输入的Y和X是否颠倒;
(4)输出的标准残差=残差(残差的误差
S0),这里的S0相当于n个残差的标准差,
不是真正的残差的误差(summaryoutput中
的)SE(自由度为(n-2)),SES0=\[(n-
1)(n-2)\]0.5
correl(array1,array2)
给出线性回归的相关系
数R
在“array1”和“array2”中分别
输入相关分析的两组数据的
区域(不包括标志)
RSQ(array1,array2)给出线性回归的相关指数R2同上
covar(array1,array2)给出两组数据的协方差同上
intercept
(know2y’s,know2x’s)给出线性回归的截距
在“know2y’s”和“know2x’s”
中分别输入因变量和自变量
的区域(不包括标志)
know2y’s必须是因变量,know2x’s是自变
量,不能颠倒!
slope
(know2y’s,know2x’s)给出线性回归的斜率同上同上
steyx
(know2y’s,know2x’s)给出线性回归的误差SE同上同上
forecast
(x,know2y’s,know2x’s)
给出线性回归的一个预
测值
同上。此外,在“x”中输入需要
预测的数据点的自变量数值同上
3举例
为了更直观地理解这些统计分析工具的功能
和操作,以下给出2个使用Excel进行统计分析
的例子。
3.1例1
此例4条河流中铀浓度数据取自文献\[1\]方
差分析一章中的表723。用Excel中的“粘贴函
数”和“工具→数据分析→分析工具”,给出了各组
数据的统计描述、各组数据均值间的t检验和全
部数据的方差分析结果。原始数据见表6;统计描
述和t检验结果示于表7;方差分析结果示于表
8。这些表(除原始数据)都是Excel的原输出表结
果(对保留的小数点位数经过处理),所有量名都
是Excel中的原名。
从表7和表8可见:
(1)数据的统计描述由“粘贴函数”和”分析
工具”给出的结果,除置信区间半宽度d外,都是
一致的。
(2)方差分析的结果全部与文献\[1\]中的相
同;F值的概率p=0.0026<0.05,表明4条河
流铀浓度均相等的原假设被否定,但未能给出哪
些河流间有显著差异;而从Ttest的成对双侧t检
验结果,表明C与A、B、D均有显著差异,其他河
流间未见显著差异;从置信区间是否相离判断,仅
是C与B、D间有显著差异。
(3)如果采用Excel数据表,那么如平均值、
标准差、n、范围、置信区间等描述数据的必要的
统计量的数值,均可利用粘贴函数方便地完成,并
与原始数据合并在同一表中;多组数据的结果是
由单组(或两组比较)数据,经单元地址按相对引
用“拖拉”而得到的(见第4节)。
—73—
Excel中一些常用统计分析工具的功能、操作和注意事项胡逢全
表64条河流中铀浓度(LgL)
序号河流中铀浓度
(LgL)
ABCD
10.540.750.630.85
20.700.800.610.87
30.680.720.590.72
40.710.710.560.78
50.520.560.420.63
60.750.680.400.90
70.780.660.530.54
80.610.610.550.63
表74条河流的铀浓度数据的统计描述和t检验结果
粘贴函数:插入→fx函数→统计
粘贴函数量名ABCD
Average平均值xq0.6610.6860.5360.740
stdev标准差Sx0.0950.0770.0850.131
count样品容量n8888
min最小值xmin0.520.560.400.54
max最大值xmax0.780.80.630.9
范围xmin~xmax0.52~0.780.56~0.80.40~0.630.54~0.9
confidence置信区间半宽度d10.0660.0530.0590.091
取自
“统计描述”
置信区间半宽度d20.07960.06410.07060.11
95%上置信限L=xq+d20.7410.7500.6070.850
95%下置信限U=xq-d20.5820.6220.4660.630
95%置信区间L~U0.582~0.7410.622~0.7500.466~0.6070.630~0.850
Ttest
成对比较双侧t检验p
j2(j+1)0.507010250.0002880.005606
j2(j+2)0.0308249630.158060298
j2(j+3)0.20116679
注释B与C,C与D差异显著;A与C差异显著
分析工具:工具→数据分析→统计描述
分析工具ABCD
平均0.6610.6860.5360.740
标准误差0.0340.0270.0300.046
中值0.690.6950.5550.75
标准偏差0.0950.0770.0850.131
样本方差0.009070.005880.007140.01726
峰值-1.190-0.207-0.578-1.466
偏斜度-0.481-0.292-0.854-0.251
区域0.260.240.230.36
最小值0.520.560.40.54
最大值0.780.80.630.9
求和5.295.494.295.92
计数8888
最大(1)0.780.80.630.9
最小(1)0.520.560.40.54
置信度(95.0%)0.07960.06410.07060.1098
—83—
辐射防护通讯2004年4月第24卷第2期
表84条河流中铀浓度数据的方差分析输出结果
分析工具:工具→数据分析→方差分析→单因素方差分析
SUMMARY
组计数求和平均方差
A85.290.661250.00907
B85.490.686250.005884
C84.290.536250.007141
D85.920.740.017257
方差分析
差异源SSdfMSFP2valueFcrit
组间0.17870930.059576.0551040.00262.946685
组内0.275463280.009838
总计0.45417231
3.2例2
此例数据(见表9)取自文献\[2\]7.2节的表
12;用“粘贴函数”和“分析工具”所得结果示于表
10;拟合曲线图示于图1。表10中,“分析工具:工
具→数据分析→回归”的量名和符号,均是Excel
中的原名(或符号),要注意其中第3个子表中
Intercept列和XVariable1列分别是截距(a)列
和斜率(b)列,表中第2行“标准误差”给出的就
是a和b的误差,余此类推(参见表5);回归统计
中的“标准误差”是回归的误差RE。
表9某厂离废水排放口不同距离x处的
底泥表面C照射量率y
y(LRh)x(m)y(LRh)x(m)
1061033.190
802024.5110
663019.2130
41.74018.4150
41.75024.9200
38.27010.5300
表10某厂底泥表面C照射量率y与
离废水排放口的距离x的相关分析
粘贴函数:插入→fx函数→统计(线性回归参数)
粘贴函数量名数值
correl相关系数R-0.761
intercept截距a67.383
slope斜率m-0.254
RSQ相关指数R20.58
steyx回归误差RE19.313
分析工具:工具→数据分析→回归
SUMMARYOUTPUT
回归统计
MultipleR0.761
RSquare0.58
AdjustedRSquare0.538
标准误差19.313
观测值12
InterceptXVariable1
Coefficients67.383-0.254
标准误差8.8150.068
tStat7.644-3.715
P2value1.75E-050.004
Lower95%47.741-0.406
Upper95%87.024-0.102
RESIDUALOUTPUT
观测值预测Y残差
164.8541.15
262.3117.69
359.776.23
457.24-15.54
554.70-13.00
649.63-11.43
744.55-11.45
839.48-14.98
934.41-15.21
1029.33-10.93
1116.658.25
12-8.7219.22
图1底泥表面C照射量率y与离废水排放口的距离x的拟合曲线图
—93—
Excel中一些常用统计分析工具的功能、操作和注意事项胡逢全
从表10和图1可见,由“粘贴函数”与“分析
工具”给出的同一量的结果完全相同,表与图给出
的结果也相同,且其与文献\[2\]计算的结果也一
致。图1是在原始图上,执行以下步骤得到的:
(1)选中图上任一数据点,点击鼠标右键,选
“添加趋势线”。
(2)在“添加趋势线”的“类型”选框中选择拟
合曲线的函数类型:线性、对数、指数、幂函数和多
项式;再在“选项”框选中“显示公式”和“显示R
平方值”。
4使用中的几点建议
4.1使用前需进行实例检验
从上述表1~表5的注意事项看,Excel(中文
版)中的统计工具还存在以下一些缺陷和问题:
(1)一些输入参数和输出量的术语,有不少
是非标准的或非专业人员通用的,而且不经过实
例检验是容易被误解的。如“统计描述”中的“置信
度”和“峰值”实际应分别是置信区间半宽度和减
3后的峰度a4-3;“回归”输出的两个表中的“标
准误差”,是十分有用的,其分别是回归误差RE和
截距a、斜率b的误差Sa、Sb,但不经实例检验很
难确认(见表5)。
(2)有些输出数据的含义是错误的或不明确
的。如“Ftest”输出的不是“单侧检验的概率”而是
双侧检验的概率;“confidence”输出的不是通常的
自由度为(n-1)的置信区间半宽度,而是自由
度为∞时的置信区间半宽度;“Chitest”输出的是
单侧V2检验的概率,但没有说明其对应的自由度
df=n-1,这又恰是配合分布检验中不大能用
的(常用的配合泊松分布检验df=n-2或正态
分布检验df=n-3,见表3)。
(3)有些对输入数据的排列有专门要求,但
又没有给出必要的指示。如“回归”要求两组数据
按列排列;“可重复双因素方差分析”中要求重复
样品数据排在同列的不同行内等。
这类缺陷和问题,对初次使用者准确地理解
输入和输出数据的确切含义及其如何输入造成很
大困难,甚至妨碍了它的推广应用。但是,以笔者
的体会,只要在使用前经过实例检验,这些困难就
很容易解决,就能便捷、准确、有效地使用这类统
计软件。检验所用实例最好是用自己过去作过统
计分析计算的例子或有关数理统计教材中的举
例,也可自己编些计算简单的例子,以便于核对。
另外,数理统计应用的学习,特别是掌握常用统计
分析方法的基本原理和重要概念,非常需要多做
实例计算\[3\];而Excel中的统计分析功能能很迅
速地计算复杂例题,而且计算准确,所以它还可用
作数理统计的学习工具。因此,在使用前对Excel
中的这些常用工具进行全面的实例检验,具有使
用和深入学习的双重价值。
4.2利用“粘贴函数”和“分析工具”互检
无论数据统计描述、统计检验或相关和回归
分析,Excel可从“粘贴函数”和“分析工具”两个
途径得到结果。一般来说,“粘贴函数”给出的结果
比较单一,但便于直接汇总于包括原始数据的数
据表中;“分析工具”输出的参数更多,但有的不是
汇总数据表中所需要的。两者的输入方式有的也
有些不同,如“粘贴函数”输入数据区域不包括标
志,而“分析工具”一般包括标志;“粘贴函数”对单
元区域使用“相对引用”如D7:D14,而“分析工
具”多用“绝对引用”如$D$7:$D$14(最好用
鼠标选中,Excel将会自动给出合理的引用格式)
等。除了仔细核对输入数据外,采用“粘贴函数”和
“分析工具”两种输出,是很省力的互检手段;然后
再根据需要,将结果汇总于数据表。
4.3使用“粘贴函数”时宜多用“拖拉”操作
在多组数据进行相同操作时,利用Excel的
“拖拉”操作,可以大大减少工作量和差错。如在t
检验时,利用Ttest算相邻两列(或两行)的t检验
结果p,采用在该给出结果的单元格用拖拉方
式,可以立即给出其他相邻列(或行)间同类检验
的p值;为了用拖拉方式,输出表的格式要稍作加
工(见表7)。至于要给出各自的统计参数,只需在
给出一组数据的统计结果的单元格用拖拉方式,
即可给出其余各组的相应结果。
5参考文献
1高玉堂,主编.环境监测常用统计方法.北京:原子能出版社,
1980.
2胡逢全.数据处理中常用统计方法的基本原理及重要概念
(II).辐射防护通讯,1996,16(3):34.
3胡逢全.数据处理中常用统计方法的基本原理及重要概念
(I).辐射防护通讯,1996,16(1):27.
(责任编辑:赵宁)
—04—
辐射防护通讯2004年4月第24卷第2期
|
|
|
|
|
|
|
|