分享

统计学—基础理论

 非著名问天 2023-04-01 发布于内蒙古

1. 描述统计

1.1 统计分析的目的

分析过去的规律,总结过去变化的原因,从而达到预测未来的目的。为了实现目的,主要的统计学手段:

描述性统计:利用表格、图形或者数值(数值特征)来展示和刻画数据中的信息;

推断性统计:利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画。

1.2 统计学本质

总体的样本数量过高,无法分析到每一个个体,为了了解全体调查对象的倾向,需要以抽样的方式统计性地抽取一部分调查对象,然后根据样本中所包含的信息对总体的状况进行估计和推算。为了使抽样结果尽可能准确,需要了解一定的抽样和推断方法。

2. 统计分析的关键概念

2.1 4种测量尺度

名义(定类)尺度、顺序(定序)尺度、间隔(定距)尺度、比例(定比)尺度4个尺度。

  • 定类尺度:起到分类的作用。比如性别,将人群分为男性,女性;比如喜欢周杰伦的人群,和不喜欢周杰伦的人群;
  • 定序尺度:起到分类和排序的作用;比如喜欢的宠物顺序,想去的国家顺序;
  • 定距尺度:起到分类,排序,加减的作用;比如10分满分(0-10分)评价,天气温度;比如 温度为15度,温度为17度,温度为20度的天数(当温度为0度的时候,有意义);
  • 定比尺度:起到分类,排序,加减,乘除的作用;比如体重,身高,年龄,收入等;比如体重为100斤,200斤(当体重为0的时候,表示没有,没有意义);

定类与定序合称分类变量(只能用于频数统计);定距和定比合称连续变量(可以用于频数,均值,标准差统计)。

2.2 均值
  • 算数平均:通常所说平均指的是算术平均(也称作加和平均),算术平均 = 数据的合计 ÷ 数据的个数

  • 几何平均:在计算销售增长率和价格变动率等的时候使用”几何平均”。几何平均(也称作相乘平均) ,作为销售增长率和价格变动率等比例数的集中趋势的度量来加以使用。几何平均是n个数字的乘积的n次方根的正数值,只有在数据为正数时才能计算。几何平均=   各数据的乘积 开n次方     n:数据的个数

  • 调和平均:计算速度的平均等的时候使用“调和平均”,  调和平均是把n个数字的倒数(1÷数字)的和作为分母, 把n作为分子的值,只有在数据为正值时才能计算。调和平均在计算速度的平均时和当下限值(最低值)附近的频数较高时使用(数值聚集在最小值附近时使用)。调和平均 = 数据的个数 ÷ 数据的倒数的和 (一般很少用)

  • 调整平均:数据的上限和下限相差较大时使用“调整平均”,调整平均(或称trim平均)是指从上限值和下限值中去掉一定比例的数据后剩下的数据的算术平均。(最大值,最小值有的时候被认为是异常值)

图片
2.3 中位数和众数

中位数:是指当把数据由小到大排列时居于中间的值。中值在年收入和储蓄额等的集中趋势的度量中被使用。虽然年收入和储蓄额多的人只是少数,但由于金额极大,平均值也很大,能看出与老百姓的感觉有距离。这时就可以使用中值(数值差异过大,均值不够准确,容易引起质疑)。

众数:是指在频数分布中集中了最多人的选择的项目的频数值。通常通过频数分布来表示。新建公寓开始出售时销售最多的价格带等可以说是众数的代表性例子。

2.5 极差和标准差

只要对数据的离散状态进行确认,这些数据是何种性质的数据就清楚了。分布大,可设想为在分布的位置,即集中趋势的度量值的周围,广泛地分布着各种各样的数据;分布小,可以设想数据为密集的、性质相同的数据。表示分布大小的代表性指标有极差和标准差(或者方差)两个。

极差:指分布的最大值和最小值的距离。在决定频数分布的组距时,也可以使用。极差的性质随样本量的变化而变化。即使从相同的抽样总体中抽取样本,一般来说,极差在样本量多的时候要比样本量小的时候大。比较2个以上的组的极差时,要力求做到各组的样本量相等。

标准差:作为表示各个数据相对于平均值的离散程度的指标,”数据的平均值与各个数据的差(称之为偏差)”的平方的平均值以及这个平均值的平方根都可以考虑。这时,差的平方的平均值叫做”方差”,而这个平均值的平方根则叫作”标准差”(开根号)。方差的算术平方根(标准差)=s=sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/(n-1))

用n去除的公式适合于整个总体数据的场合,而用n-l去除的公式则适合于从总体中抽取样本的场合。由于问卷调查多为抽取样本的情形,所以使用n-l去除的公式。

想要从问卷调查数据中推测总体的标准差的时候,如果用n去除,由于会出现比真值还小的偏差而不能令人满意,为了填补这个偏差,用n-1去除(分析离散趋势时,默认样本数量越多,数据越分散。选择抽样的方式来分析整体样本的趋势,样本数量减小,所以需要用n-1来增大标准差)。

例如:让我们看一看1、5、9这3个数据的情况

算数平均:(1+5+9)÷ 3 = 15 ÷ 3 = 5

方差:[(5-1)² +(5-5)² +(5-9)2] ÷ 3 = [4²+0²+(-4)²] ÷ 3  =(16+0+16)÷ 3 = 32 ÷ 3 ≈ 10.7

标准差为0 (当然方差也为0) ,意味着没有离散,即数据的值全部相同。

如果希望比较两组数据的离散趋势,不能直接使用标准差来比较,因为两组数据的数量和均值不同,通常选用离散洗漱来进行比较,离散系数等于标准差除以均值;

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多