分享

《学点统计学,让工作起飞》|1. 快速了解统计学

 leafcho 2019-01-12

一、什么是统计学

综合来讲,统计学就是收集、处理、分析、解释数据并从数据中得出结论的科学。

比如说,我们想知道中国男性和女性谁的收入更高。全中国人民那么多,即使是官方机构想要进行一个总体的统计都不太现实,更别提我们了。因此我们需要进行抽样,并统计我们抽中的样本的数据情况,对数据进行一些必要的处理(比如处理缺失值、异常值、重复数据等),然后对数据进行分析,并对分析结果进行解释。最后,给出一个可靠的结论。

以上就是一项统计学任务的流程。其中,数据分析所使用的方法可以分为描述统计方法和推断统计方法。

  • 描述统计:Descriptive Statistics,研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
  • 推断统计:Inferential Statistics,研究如何利用样本数据来推断总体特征的统计方法。

之后我们会详细讨论两者的更多细节。

二、统计数据的类型

我们有必要先了解下数据的类型。

1. 按照计量尺度

  • 分类数据:categorical data,能归于某一类别的非数字型数据,它是对食物进行分类的结果,数据表现为类别,一般用文字来表述。比如人口分为男、女两类等。为方便处理,我们经常会用数字代码来代替文字。
  • 顺序数据:rank data,能归于某一有序类别的非数字型数据。比如考试成绩可以分为优、良、中、及格、不及格,一个人的受教育程度可以分为小学、初中、高中、本科、硕士、博士等。
  • 数值型数据:metric data,按数字尺度测量的观察值,其结果表现为具体的数值。数值型数据具体又可以分为等距数据和等比数据。在等距数据中,数据间的单位尺度是固定的,比如我们走路的步数,可以是1步、2步、……、100步,但是不会是1.1步,因此等距数据属于离散数据;等比数据则是一种连续数据,它的加减乘除均有意义。

2. 按照统计数据的收集方法

  • 观测数据:observational data,通过调查或观测而收集到的数据,这类数据是在没有人为操控的情况下得到的。
  • 实验数据:experimental data,实验中控制实验对象而收集到的数据,这类数据是在人为操控的环境下得到的。

3. 按照被描述对象与时间的关系

  • 截面数据:cross-sectional data,在相同或近似相同的时间点上收集的数据。我们常常提到的横向对比,事实上就是对同一时期收集到的截面数据进行对比。
  • 时间序列数据:time series data,在不同时间收集到的数据,这类数据是按照时间顺序收集到的,用于描述现象随时间变化的情况。我们常常提到的纵向对比,就是指同一事物在不同时期的时间序列数据间的对比。时间序列分析可以单独拆分为一门大学问,我们后续可能会单独拆出一个系列来讲解。

《学点统计学,让工作起飞》|1. 快速了解统计学

三、统计中的一些基本概念

1. 总体和样本

总体:population,包含所研究的全部个体的集合。比如当我们想要研究中国人民的人均身高时,全中国人民就是总体。总体分为有限总体无限总体,对于有限总体来说,元素的数目是可数的,而无限总体中的元素则是无限、不可数的。在无限总体中,每次抽取一个单位,并不影响下一次的抽样结果,这是因为无限总体去除上一次抽取的样本后,剩下的仍然是一个无限总体。因此无限总体中的每次抽样总可以看做是独立的。反之,在有限总体中,多次无放回的抽样之间并不是相互独立的

样本:sample,从总体中抽取的一部分元素的集合,构成样本的元素的数目成为样本量。抽样的目的是根据样本提供的信息推断总体的特征。比如我们统计中国人民的人均身高时,抽取了10000人的样本来作为代表。那么全中国人民是我们的总体,这10000人就是我们的样本,样本量是10000。

2. 参数和统计量

  • 参数:parameter,用来描述

    总体特征

    的概括性数字度量,它是研究者想要了解的总体的某种特征值。比如总体均值、总体标准差等。在统计中,总体参数通常用希腊字母表示,比如总体均值用μ表示,总体标准差用σ表示,总体比例用π表示等。
  • 统计量:statistic,用来描述

    样本特征

    的概括性数字度量。样本统计量常用英文字母来表示。

由于样本已知,因此统计量可以轻松求得。抽样的目的是根据样本统计量来估计总体参数。比如用样本标准差s估计总体标准差σ等。

一言以蔽之,参数相当于总体中的统计量,统计量相当于样本中的参数,它们的含义一致,只是分别应用于总体和统计量,且样本统计量可以直接通过描述统计得到,而总体参数往往是未知的,需要通过推断统计来估计。

3. 变量

变量:variable,相信我们对变量都比较熟悉,我们最常使用的名称有自变量和因变量,其中后者跟随前者的变化而变化。不过今天我们会从其他的角度对变量进行分类。

按照变量数据类型分类:

  • 分类变量:categorical variable,对应分类数据。
  • 顺序变量:rank variable,对应顺序数据。
  • 数值型变量:metric variable,对应数值型数据。可以进一步分为离散型变量(discrete variable)和连续性变量(continuous variable)。

其他分类角度

  • 随机变量和非随机变量
  • 经验变量和理论变量

这部分后续我们会接触到。

以上内容是统计学的基础,不难,但是必须要记清楚,避免以后在某些问题上产生混淆。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多