来自:lucjb > 馆藏分类
配色: 字号:
数据的统计分析与描述
2013-02-28 | 阅:  转:  |  分享 
  
ToMATLAB(liti5)4、均值与方差:[m,v]=normstat(mu,sigma)例5求正态分布N(3,52)的均值与方差.命令为:[m,v]=normstat(3,5)结果为:m=3,v=255、随机数生成:normrnd(mu,sigma,m,n).产生m?n阶的正态分布随机数矩阵.例6命令:M=normrnd([123;456],0.1,2,3)结果为:M=0.95672.01252.88543.83345.02886.1191ToMATLAB(liti6)此命令产生了2?3的正态分布随机数矩阵,各数分别服从N(1,0.12),N(2,22),N(3,32),N(4,0.12),N(5,22),N(6,32)返回1、给出数组data的频数表的命令为:[N,X]=hist(data,k)此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.2、描绘数组data的频数直方图的命令为:hist(data,k)四、频数直方图的描绘返回五、参数估计1、正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值,muci是均值的区间估计,sigmaci是标准差的区间估计.2、其它分布的参数估计有两种处理办法:一.取容量充分大的样本(n>50),按中心极限定理,它近似地服从正态分布;二.使用Matlab工具箱中具有特定分布总体的估计命令.(1)[muhat,muci]=expfit(X,alpha)-----在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)[lambdahat,lambdaci]=poissfit(X,alpha)-----在显著性水平alpha下,求泊松分布的数据X的参数的点估计及其区间估计.(3)[phat,pci]=weibfit(X,alpha)-----在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计.返回六、假设检验在总体服从正态分布的情况下,可用以下命令进行假设检验.1、总体方差sigma2已知时,总体均值的检验使用z-检验[h,sig,ci]=ztest(x,m,sigma,alpha,tail)检验数据x的关于均值的某一假设是否成立,其中sigma为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”tail=1,检验假设“x的均值大于m”tail=-1,检验假设“x的均值小于m”tail的缺省值为0,alpha的缺省值为0.05.返回值h为一个布尔值,h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.例7Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(?=4),试检验一月份油价的均值是否等于115.解作假设:m=115.首先取出数据,用以下命令:loadgas然后用以下命令检验[h,sig,ci]=ztest(price1,115,4)返回:h=0,sig=0.8668,ci=[113.3970116.9030].检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设3.95%的置信区间为[113.4,116.9],它完全包括115,且精度很高..ToMATLAB(liti7)数学建模与数学实验数据的统计描述和分析实验目的实验内容2、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。1、统计的基本理论。3、实验作业。2、用数学软件包求解统计问题。统计的基本概念参数估计假设检验数据的统计描述和分析一、统计量二、分布函数的近似求法三、几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.41.正态分布),(2smN密度函数:222)(21)(smsp--=xexp分布函数:dyexFyx222)(21)(smsp--¥-ò=其中m为均值,2s为方差,+¥<<¥-x.标准正态分布:N(0,1)密度函数2221)(xex-=pjdyexyx2221)(-¥-ò=Fp,分布函数返回F分布F(10,50)的密度函数曲线一、点估计的求法(一)矩估计法(二)极大似然估计法二、区间估计的求法1、已知DX,求EX的置信区间2.未知方差DX,求EX的置信区间(一)数学期望的置信区间(二)方差的区间估计返回1.参数检验:如果观测的分布函数类型已知,这时构造出的统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验的目的往往是对总体的参数及其有关性质作出明确的判断.对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.2.非参数检验:如果所检验的假设并非是对某个参数作出明确的判断,因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型,这种检验叫非参数检验.如要求判断总体分布类型的检验就是非参数检验.假设检验的一般步骤是:(一)单个正态总体均值检验一、参数检验(二)单个正态总体方差检验(三)两个正态总体均值检验(四)两个正态总体方差检验二、非参数检验(二)概率纸检验法概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.返回统计工具箱中的基本统计命令1.数据的录入、保存和调用2.基本统计量3.常见概率分布的函数4.频数直方图的描绘5.参数估计6.假设检验7.综合实例返回一、数据的录入、保存和调用例1上海市区社会商品零售总额和全民所有制职工工资总额的数据如下统计工具箱中的基本统计命令1、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:bt=78:872、分别以x和y代表变量职工工资总额和商品零售总额。x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4]y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]3、将变量t、x、y的数据保存在文件data中。savedatatxy4、进行统计分析时,调用数据文件data中的数据。loaddataToMATLAB(txy)1、输入矩阵:data=[78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]2、将矩阵data的数据保存在文件data1中:savedata1data3、进行统计分析时,先用命令:loaddata1调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j)ToMATLAB(data)返回二、基本统计量对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)方差:var(x)偏度:skewness(x)峰度:kurtosis(x)例对例1中的职工工资总额x,可计算上述基本统计量。ToMATLAB(tjl)返回三、常见概率分布的函数Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf概率分布:cdf逆概率分布:inv均值与方差:stat随机数生成:rnd(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.)在Matlab中输入以下命令:x=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z)1、密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省)ToMATLAB(liti2)如对均值为mu、标准差为sigma的正态分布,举例如下:ToMATLAB(liti3)3、逆概率分布:x=norminv(P,mu,sigma).即求出x,使得P{X
表示位置的统计量—平均值和中位数

平均值(或均值,数学期望):

中位数:将数据由小到大排序后位于中间位置的那个数值.

表示变异程度的统计量—标准差、方差和极差

标准差:

它是各个数据与均值偏离程度的度量.

方差:标准差的平方.

极差:样本中最大值与最小值之差.

3.表示分布形状的统计量—偏度和峰度

偏度:峰度:

偏度反映分布的对称性,g1>0称为右偏态,此时数据位于均值

右边的比位于左边的多;g1<0称为左偏态,情况相反;而g1接近0

则可认为分布是对称的.

峰度是分布形状的另一种度量,正态分布的峰度为3,若g2比3

大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数

据,因而峰度可用作衡量偏离正态分布的尺度之一.



4.k阶原点矩:k阶中心矩:

2、分布(n)

若随机变量X1,X2,…Xn相互独立,都服从标准正态分布N(0,1),则随机变量

Y=

服从自由度为n的分布,记为Y~(n).

Y的均值为n,方差为2n.

t分布t(n)

若X~N(0,1),Y~(n),且相互独立,则随机变量



服从自由度为n的t分布,记为T~t(n).

t分布t(20)的密度函数曲线和N(0,1)的

曲线形状相似.理论上n时,T~t(n)N(0,1).

4.F分布F(n1,n2)

若X~(n1),Y~(n2),且相互独立,则随机变量



服从自由度为(n1,n2)的F分布,记作F~F(n1,n2).



由F分布的定义可以得到F分布的一个重要性质:

若F~F(n1,n2),则

无论总体X的分布函数F(x;)的类型已知或未知,我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题.即参数估计就是从样本(X1,X2,…,Xn)出发,构造一些统计量X1,X2,…,Xn)(i=1,2,…,k)去估计总体X中的某些参数(或数字特征)(i=1,2,…,k).这样的统计量称为估计量.



点估计:构造(X1,X2,…,Xn)的函数X1,X2,…,Xn)

作为参数的点估计量,称统计量为总体X参数的点估计量.

区间估计:构造两个函数X1,X2,…,Xn)和X1,X2,…,

Xn)做成区间,把这()作为参数的区间估计.

假设总体分布中共含有k个参数,它们往往是一些原

点矩或一些原点矩的函数,例如,数学期望是一阶原点矩,

方差是二阶原点矩与一阶原点矩平方之差等.因此,要想估计

总体的某些参数(i=1,2,…k),由于k个参数一定可以

表为不超过k阶原点矩的函数,很自然就会想到用样本的r

阶原点矩去估计总体相应的r阶原点矩,用样本的一些原点

矩的函数去估计总体的相应的一些原点矩的函数,再将k个

参数反解出来,从而求出各个参数的估计值.这就是矩估计法,

它是最简单的一种参数估计法.

极大似然法的想法是:若抽样的结果得到样本观测值x1,x2,…,xn,则我们应当这样选取参数的值,使这组样本观测值出现的可能性最大.即构造似然函数:

使达到最大,从而得到参数的估计值.此估计值叫极大似然估计值.函数称为似然函数.

求极大似然估计值的问题,就是求似然函数的最大值的问题,则





设总体X的分布中含有未知参数,若对于给定的概率(),存在两个统计量X1,X2,…,Xn)和X1,X2,…,Xn),使得



则称随机区间(为参数的置信水平为的置信区间,称为置信下限,称为置信上限.

根据实际问题提出原假设H0与备择假设H1,即说明需要检验

的假设的具体内容;

选择适当的统计量,并在原假设H0成立的条件下确定该统计量

的分布;

按问题的具体要求,选取适当的显著性水平,并根据统计量

的分布查表,确定对应于的临界值.一般取0.05,0.01或0.10

根据样本观测值计算统计量的观测值,并与临界值进行比较,从

而在检验水平条件下对拒绝或接受原假设H0作出判断.

设X1,X2,…,Xn是来自正态总体的样本,欲检验假设:

(或或)

这叫检验.

H0 H1 均值已知

统计量 均值未知

统计量 在显著水平下拒绝H0,若 Ⅰ 或 或 Ⅱ Ⅲ

设样本X1,X2,…,Xn1与Y1,Y2,…,Yn2分别来自正态总体与,检验假设:

(或或)

H0 H1 均值已知

统计量 均值未知

统计量 在显著水平下拒绝H0,若 Ⅰ 或 或 Ⅱ Ⅲ

,(设)



皮尔逊拟合检验法



年份 78 79 80 81 82 82 84 85 86 87 职工工资总额(亿元) 23.8 27.6 31.6 32.4 33.7 34.9 43.2 52.8 63.8 73.4 商品零售总额(亿元) 41.4 51.8 61.7 67.9 68.7 77.5 95.9 137.4 155.0 175.0

常见的几种分布的命令字符为:

正态分布:norm指数分布:exp

帕松分布:poiss分布:beta

威布尔分布:weib分布:chi2

t分布:tF分布:F

例2画出正态分布和的概率密度函数图形.

例3.计算标准正态分布的概率P{-1
命令为:P=normcdf(1)-normcdf(-1)

结果为:P=0.6827

设样本(X1,X2,…,Xn)来自正态母体X,已知方差,

EX在置信水平1-下的置信区间为.

EX在置信水平1-下的置信区间为.



用u检验,检验的拒绝域为



整理资料:把样本值x1,x2,…,xn进行分组,先将它们依大小次序排列,

得.在包含的区间[a,b]内插入一些等分点:

注意要使每一个区间(i=1,2,…,n-1)

内都有样本观测值xi(i=1,2,…,n-1)落入其中.

2、求出各组的频数和频率:统计出样本观测值在每个区间中出

现的次数,它就是这区间或这组的频数.计算频率.

3、作频率直方图:在直角坐标系的横轴上,标出各点,分别以

为底边,作高为的矩形,,即得

频率直方图.

DX在置信水平1-下的置信区间为.



用样本方差代替总体方差,这种检验叫t检验.

H0 H1 总体方差已知

统计量z= 总体方差未知

统计量 在显著水平下拒绝H0,若 Ⅰ Ⅱ Ⅲ

构造统计量.

1、与已知时

2、与未知但相等时

构造统计量,

H0 H1 方差已知

统计量z 方差未知但相等

统计量 在显著水平下拒绝H0,若 Ⅰ Ⅱ Ⅲ

如果一个总体的分布F(X)是正态的,则(x,F(x))点

在正态概率纸上应呈一条直线.设X1,X2,…,Xn是从正态总体

中抽得的样本观测值,将它们按大小排列后,记作X(1)X(2)

…X(n).则当n较大时,样本的经验分布函数Fn(x)和理论

分布F(x)很接近.因此,如果用(x,F(x))画图,则必应

近似为一条直线.

例4取,求

的含义是:,P{X<}=

时,P=0.975,norminv(0.975)=1.96

1、总体方差已知

2.总体方差未知

设取出一容量为n的样本,得到均值和标准差s,现要

对总体均值是否等于某给定值进行检验.记



称H0为原假设,H1为备择假设,两者择其一:接受H0;拒绝H0,

即接受H1.

献花(0)
+1
(本文系lucjb首藏)