【原】3000字统计学入门——假装懂教育统计学

赵数理 2023-04-13 发布于上海

展开全文

教育学专业的孩子大多是文科生，数学知识略少一点，但教育实践和研究中经常会用到一些统计学知识。

就像我们要学会开车，但不需要弄懂汽车内部的原理一样，我们不需要把统计的数学原理搞清楚，只需要明白基本概念和统计软件的操作与结果解释就可以了。

太复杂的统计，学懂了很难，而且没有必要，但有些数学好的人用复杂的统计模型研究教育问题，“显得很厉害”，这种炫技其实大可不必。我的原则是，能用简单方法解决的问题，就不用复杂方法；能用一句话解释清楚的问题，绝不多说一个字。

大学时赵老师学过《概率论与数理统计》，但考完了就全忘了。最近几天回顾了一些统计基础，在此略做梳理。

一、基本概念

1.算数平均数

2.加权平均数

3.几何平均数

4.中位数

5.百分位数

6.众数

7.全距（极差）-四分位距-百分位距

8.方差-标准差

9.差异系数：标准差除以平均数

10.频数与频率及概率

11.样本的数据特征叫统计量

12.对统计量进行分析叫描述统计

13.总体的数据特征叫参数

14.由样本的统计量推断总体参数叫推断统计

15.概率抽样方法：完全随机抽样、系统抽样、分层抽样、整群抽样等

16.非概率抽样方法：滚雪球抽样、定额抽样、方便抽样、立意抽样、空间抽样等

17.其他（正态分布、偏度、峰度等）

以上有不清楚的，百度或查书皆可

二、抽样分布与推断基础

1.抽样分布是推断统计的理论基础，一个最有名的公式叫“中心极限定理”：一切可能样本的平均数之平均数等于总体的平均数。

有点绕，我卖个关子，作为课后题，希望有课代表在文末留言区举例解释一下。

2.点估计：用样本统计量的值来估计总体参数的值叫做总体参数的点估计，但很难说点估计是准确的

3.区间估计：以样本统计量的抽样分布为理论依据，按一定的概率要求，由样本统计量的值估计总体参数值得所在范围，成为总体参数的区间估计。

大概长得这个样子：随机抽取某学校30名初二学生物理考试成绩，算出平均分92，如果知道全校所有人的方差就好了（不知道也没关系）……最后经过计算得出结论：有95%的把握认为全校平均分在89.5-93.7分之间，89.5和93.7分别叫95%的置信区间的置信下限和置信上限。（数是我瞎编的）

4.假设检验：通过例子来说，比如全省高三学生平均身高172cm，现在某市随机抽取200名高三学生，测得平均身高173.2cm，这200个样本的平均身高统计量比全省的参数高一些，但能否就此说明该市所有高三学生平均身高比全省高呢？

虽然是随机抽样，但难免有抽样造成的误差。这个时候就可以假设该市所有高三学生平均身高也是172cm，然后利用统计分析。

具体数学过程不需要懂，因为用软件操作即可，但基本思路要了解：如果统计分析发现，按照假设，从平均身高172的全市总体中随机抽200个样本，这些样本的平均数是173.2的概率小于1%（或5%），我们就认为，一次事件中小概率事件是不可能发生的，因此就可以认为原假设是错误的，我们有99%的把握认为，该市高三学生的平均身高比全身水平要高一点。（同上，数是瞎编的，以下的数也都是瞎编的）