1. 描述统计1.1 统计分析的目的分析过去的规律,总结过去变化的原因,从而达到预测未来的目的。为了实现目的,主要的统计学手段: 描述性统计:利用表格、图形或者数值(数值特征)来展示和刻画数据中的信息; 推断性统计:利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画。 1.2 统计学本质总体的样本数量过高,无法分析到每一个个体,为了了解全体调查对象的倾向,需要以抽样的方式统计性地抽取一部分调查对象,然后根据样本中所包含的信息对总体的状况进行估计和推算。为了使抽样结果尽可能准确,需要了解一定的抽样和推断方法。 2. 统计分析的关键概念2.1 4种测量尺度名义(定类)尺度、顺序(定序)尺度、间隔(定距)尺度、比例(定比)尺度4个尺度。
定类与定序合称分类变量(只能用于频数统计);定距和定比合称连续变量(可以用于频数,均值,标准差统计)。 2.2 均值
2.3 中位数和众数中位数:是指当把数据由小到大排列时居于中间的值。中值在年收入和储蓄额等的集中趋势的度量中被使用。虽然年收入和储蓄额多的人只是少数,但由于金额极大,平均值也很大,能看出与老百姓的感觉有距离。这时就可以使用中值(数值差异过大,均值不够准确,容易引起质疑)。 众数:是指在频数分布中集中了最多人的选择的项目的频数值。通常通过频数分布来表示。新建公寓开始出售时销售最多的价格带等可以说是众数的代表性例子。 2.5 极差和标准差只要对数据的离散状态进行确认,这些数据是何种性质的数据就清楚了。分布大,可设想为在分布的位置,即集中趋势的度量值的周围,广泛地分布着各种各样的数据;分布小,可以设想数据为密集的、性质相同的数据。表示分布大小的代表性指标有极差和标准差(或者方差)两个。 极差:指分布的最大值和最小值的距离。在决定频数分布的组距时,也可以使用。极差的性质随样本量的变化而变化。即使从相同的抽样总体中抽取样本,一般来说,极差在样本量多的时候要比样本量小的时候大。比较2个以上的组的极差时,要力求做到各组的样本量相等。 标准差:作为表示各个数据相对于平均值的离散程度的指标,”数据的平均值与各个数据的差(称之为偏差)”的平方的平均值以及这个平均值的平方根都可以考虑。这时,差的平方的平均值叫做”方差”,而这个平均值的平方根则叫作”标准差”(开根号)。方差的算术平方根(标准差)=s=sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n-1)) 用n去除的公式适合于整个总体数据的场合,而用n-l去除的公式则适合于从总体中抽取样本的场合。由于问卷调查多为抽取样本的情形,所以使用n-l去除的公式。 想要从问卷调查数据中推测总体的标准差的时候,如果用n去除,由于会出现比真值还小的偏差而不能令人满意,为了填补这个偏差,用n-1去除(分析离散趋势时,默认样本数量越多,数据越分散。选择抽样的方式来分析整体样本的趋势,样本数量减小,所以需要用n-1来增大标准差)。 例如:让我们看一看1、5、9这3个数据的情况 算数平均:(1+5+9)÷ 3 = 15 ÷ 3 = 5 方差:[(5-1)² +(5-5)² +(5-9)2] ÷ 3 = [4²+0²+(-4)²] ÷ 3 =(16+0+16)÷ 3 = 32 ÷ 3 ≈ 10.7 标准差为0 (当然方差也为0) ,意味着没有离散,即数据的值全部相同。 如果希望比较两组数据的离散趋势,不能直接使用标准差来比较,因为两组数据的数量和均值不同,通常选用离散洗漱来进行比较,离散系数等于标准差除以均值; |
|