《学点统计学，让工作起飞》｜1. 快速了解统计学

leafcho 2019-01-12

展开全文

一、什么是统计学

综合来讲，统计学就是收集、处理、分析、解释数据并从数据中得出结论的科学。

比如说，我们想知道中国男性和女性谁的收入更高。全中国人民那么多，即使是官方机构想要进行一个总体的统计都不太现实，更别提我们了。因此我们需要进行抽样，并统计我们抽中的样本的数据情况，对数据进行一些必要的处理（比如处理缺失值、异常值、重复数据等），然后对数据进行分析，并对分析结果进行解释。最后，给出一个可靠的结论。

以上就是一项统计学任务的流程。其中，数据分析所使用的方法可以分为描述统计方法和推断统计方法。

描述统计：Descriptive Statistics，研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计：Inferential Statistics，研究如何利用样本数据来推断总体特征的统计方法。

之后我们会详细讨论两者的更多细节。

二、统计数据的类型

我们有必要先了解下数据的类型。

1. 按照计量尺度

分类数据：categorical data，能归于某一类别的非数字型数据，它是对食物进行分类的结果，数据表现为类别，一般用文字来表述。比如人口分为男、女两类等。为方便处理，我们经常会用数字代码来代替文字。
顺序数据：rank data，能归于某一有序类别的非数字型数据。比如考试成绩可以分为优、良、中、及格、不及格，一个人的受教育程度可以分为小学、初中、高中、本科、硕士、博士等。
数值型数据：metric data，按数字尺度测量的观察值，其结果表现为具体的数值。数值型数据具体又可以分为等距数据和等比数据。在等距数据中，数据间的单位尺度是固定的，比如我们走路的步数，可以是1步、2步、……、100步，但是不会是1.1步，因此等距数据属于离散数据；等比数据则是一种连续数据，它的加减乘除均有意义。

2. 按照统计数据的收集方法

观测数据：observational data，通过调查或观测而收集到的数据，这类数据是在没有人为操控的情况下得到的。
实验数据：experimental data，实验中控制实验对象而收集到的数据，这类数据是在人为操控的环境下得到的。

3. 按照被描述对象与时间的关系

截面数据：cross-sectional data，在相同或近似相同的时间点上收集的数据。我们常常提到的横向对比，事实上就是对同一时期收集到的截面数据进行对比。
时间序列数据：time series data，在不同时间收集到的数据，这类数据是按照时间顺序收集到的，用于描述现象随时间变化的情况。我们常常提到的纵向对比，就是指同一事物在不同时期的时间序列数据间的对比。时间序列分析可以单独拆分为一门大学问，我们后续可能会单独拆出一个系列来讲解。

《学点统计学，让工作起飞》｜1. 快速了解统计学

三、统计中的一些基本概念

1. 总体和样本

总体：population，包含所研究的全部个体的集合。比如当我们想要研究中国人民的人均身高时，全中国人民就是总体。总体分为有限总体和无限总体，对于有限总体来说，元素的数目是可数的，而无限总体中的元素则是无限、不可数的。在无限总体中，每次抽取一个单位，并不影响下一次的抽样结果，这是因为无限总体去除上一次抽取的样本后，剩下的仍然是一个无限总体。因此无限总体中的每次抽样总可以看做是独立的。反之，在有限总体中，多次无放回的抽样之间并不是相互独立的。

样本：sample，从总体中抽取的一部分元素的集合，构成样本的元素的数目成为样本量。抽样的目的是根据样本提供的信息推断总体的特征。比如我们统计中国人民的人均身高时，抽取了10000人的样本来作为代表。那么全中国人民是我们的总体，这10000人就是我们的样本，样本量是10000。

2. 参数和统计量

参数：parameter，用来描述
总体特征
的概括性数字度量，它是研究者想要了解的总体的某种特征值。比如总体均值、总体标准差等。在统计中，总体参数通常用希腊字母表示，比如总体均值用μ表示，总体标准差用σ表示，总体比例用π表示等。
统计量：statistic，用来描述
样本特征
的概括性数字度量。样本统计量常用英文字母来表示。

由于样本已知，因此统计量可以轻松求得。抽样的目的是根据样本统计量来估计总体参数。比如用样本标准差s估计总体标准差σ等。

一言以蔽之，参数相当于总体中的统计量，统计量相当于样本中的参数，它们的含义一致，只是分别应用于总体和统计量，且样本统计量可以直接通过描述统计得到，而总体参数往往是未知的，需要通过推断统计来估计。

3. 变量

变量：variable，相信我们对变量都比较熟悉，我们最常使用的名称有自变量和因变量，其中后者跟随前者的变化而变化。不过今天我们会从其他的角度对变量进行分类。

按照变量数据类型分类：