配色: 字号:
第六章 数理统计的基本概念1
2012-05-20 | 阅:  转:  |  分享 
  
6.1几个基本概念代表性——即子样()的每个分量与总体
具有相同的概率分布。定义设()为总体X
的一个样本,为不含任何未知参数的连续函数,则称
为样本()的一个统计量。它包括两个方面——数据整
理计算样本特征值计算样本特征数:第一.整理原始数据,
加工为分组资料,作出频率分布表,画直方图,提取样本分布特征的信息.步骤如下:样本方差样本标准差Q1Q3
极差四分位差68.69098.28885.2595424
.875数理统计Statistics第六章数理统计的基本概念第七章参数估计第八章假设检验第六章 数理统
计的基本概念几个基本概念3个重要分布和抽样定理一、总体与样本二、直方图三、统计量与样本矩引言
随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。概率论的许多问题中,随机变量的概率分布通常
是已知的,或者假设是已知的,而一切计算与推理都是在这已知是基础上得出来的。但实际中,情况往往并非如此,一个随机
现象所服从的分布可能是完全不知道的,或者知道其分布概型,但是其中的某些参数是未知的。引言例如:某公路
上行驶车辆的速度服从什么分布是未知的;电视机的使用寿命服从什么分布是未知的;产品是否合格服从两点分布,
但参数——合格率p是未知的;数理统计的任务则是以概率论为基础,根据试验所得到的数据,对研究对象的
客观统计规律性做出合理的推断。样本与统计量总体与样本在数理统计中,把研究对象的全体称为总
体或母体,而把组成总体的每个单元,称为个体。抽样要了解总体的分布规律,在统计分析工作中,往
往是从总体中抽取一部分个体进行观测,这个过程称为抽样。样本与统计量子样子样
是n个随机变量,抽取之后的观测数据称为样本
值或子样观察值。在抽取过程中,每抽取一个个体,即对总体X进行一次随机试验,每次抽取的n个个体
,称为总体X的一个容量为n的样本或子样;其中样本中所包含的个体数量称为样本容量。随机抽样方法的基本
要求独立性——即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽样结果的影响。
满足上述两点要求的子样称为简单随机子样.获得简单随机子样的抽样方法叫简单随机抽样.从简单随机子样的含义可知,样本
是来自总体、与总体具有相同分布的随机变量.简单随机抽样
例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中,则这是一个简单随机抽样
。但实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。统计
量则例如:设是从正态总体中抽取的一
个样本,其中为已知参数,为未知参数,是统计量不是统计量几个常用的统计量样本
均值(samplemean)设是总体的一个样本,样本方差(
samplevariance)样本均方差或标准差它们的观测值用相应的小写字母表示.反映总
体X取值的平均,或反映总体X取值的离散程度。几个常用的统计量设
是总体的一个样本,子样的K阶(原点)矩几个常用的统计量设
是总体的一个样本,子样的K阶中心矩数据的简单处理为了
研究随机现象,首要的工作是收集原始数据.一般通过抽样调查或试验得到的数据往往是杂乱无章的,需要通过整理后才能显示出它们的分布状况。
数据的简单处理是以一种直观明了方式加工数据。数据的简单处理数据整理:将数据分组计算各
组频数作频率分布表作频率直方图(1)反映趋势的特征数样本均值中
位数:数据按大小顺序排列后,位置居中的那个数或居中的两个数的平均数。众数:样本中出现最多的那个数。
数据的简单处理(2)反映分散程度的特征数:极差、四分位差极差——样本数据中最大值与最小
值之差,四分位数——将样本数据依概率分为四等份的3个数椐,依次称为第一、第二、第三四分位数。例1
为对某小麦杂交组合F2代的株高X进行研究,抽取容量为100的样本,测试的原始数据记录如下(单位:厘米),试根据以上数据,画
出它的频率直方图,求随机变量X的分布状况。87 88 111 91 73 70 92 98 105 9499
91 98 110 98 97 90 83 92 8886 94 102 99 89 104 94
94 92 9687 94 92 86 102 88 75 90 90 8084 91 82
94 99 102 91 96 94 9485 88 80 83 81 69 95 80 97
9296 109 91 80 80 94 102 80 86 9190 83 84 91 87 9
5 76 90 91 77103 89 88 85 95 92 104 92 95 8386 8
1 86 91 89 83 96 86 75 921.找出数据中最小值m=69,最大值M=111,极差为
M-m=422.数据分组,根据样本容量n的大小,决定分组数k。一般规律30≤n≤40
5≤k≤640≤n≤606≤k≤8
60≤n≤1008≤k≤10100≤n≤500
10≤k≤20数据分组数参考表74563935302724201610~1
57~96~8分组数1000050002000150010008006004002001501004
0~60数据数一般采取等距分组(也可以不等距分组),组距等于比极差除以组数略大的测量单位的整数倍。本例取k=
9.本例测量单位为1厘米,组距为3.确定组限和组中点值。注意:组的上限与下限应比数据多一位小数。
当取a=67.5,b=112.49(a略小于m,b略大于M,且a和b都比数据多一位小数),分组如下:一般根据算式:
各组中点值组距=组的上限或下限[67.5,72.5)[72.5,77.5)
[77.5,82.5)[82.5,87.5)[87.5,92.5)[
92.5,97.5)[97.5,102.5)[102.5,107.5)[107.5,112.5)组
中值分别为:7075808590951001051104.将数据分组,计算出各组频数,作频数、频率分布表1.0
00.033[107.5,112.5)90.970.044[102.5,107.5)80.930.110
[97.5,102.5)70.830.1818[92.5,97.5)60.650.330[87.5,92.5)
50.350.1818[82.5,87.5)40.170.1010[77.5,82.5)30.070.0
55[72.5,77.5)20.020.022[67.5,72.5)1累计频率Fj频率Wj=fj/n频数
fj区间范围组序作频率直方图5.作出频率直方图以样本值为横坐标,频率/组距为纵坐标;以分组区
间为底,以为高从频率直方图可看到:靠近
两个极端的数据出现比较少,而中间附近的数据比较多,即中间大两头小的分布趋势,——随机变量分布状况的最粗略的信息。
在频率直方图中,每个矩形面积恰好等于样本值落在该矩形对应的分组区间内的频率,即频率直方图中的小矩形的面积近似地反映了样本数据落在某个区间内的可能性大小,故它可近似描述X的分布状况。第二.计算样本特征数1.反映集中趋势的特征数:样本均值、中位数、众数等样本均值MEAN中位数MEDIAN众数2.反映分散程度的特征数:样本方差、样本标准差、极差、四分位差等上述差异特征统计量的值越小,表示离散程度越小.
献花(0)
+1
(本文系小海的幸福...首藏)