分享

武松老师说统计之四:学习统计必须明白的核心统计学概念

 lsyy2096 2018-05-08

各位盆友:

学习统计学,必须要掌握一些统计学的核心思想与概念,否则无法构建自己的统计知识体系,根据本人的检验,您掌握如下六个概念就不会让您在起步学习统计过程中有多大的障碍。


(一)统计学(Statistic)

统计学是研究数据收集整理分析的一门科学。其工作流程为设计、搜集、整理、分析与结果报告。说的通俗点,统计学就是“打牌”,抓牌就是搜集数据,牌抓好后要整理一下,然后研究怎么打就是分析,打的输赢就是结果报告,呵呵!

(二)总体与样本(Population and Sample)

总体:是指根据研究目的所确定的观察单位某项特征的集合。比如说我想研究安徽中医药大学所有在校生的平均体重,那根据此目的,我们研究的总体就是:安徽中医药大学所有在校生的体重数据的集合。但是需要注明一点:总体分为有限总体和无限总体,上面的例子就是有限总体,毕竟安徽中医药大学学生还是有限的,然而科研过程中面临的大多数是无限的总体,如茫茫宇宙中星体的平均质量,如空气重某种物质的浓度,我们是无法取得其总体进行研究的。那我们面对无限总体怎么办呢?

中国古话云:“君子性非异也,而擅贾于物也”,意思大意是聪明的人并不是本质上与一般人就不一样,只不过善于利用某种工具罢了,因此,我们为了研究无限总体,发明了抽样的方法。就像我们想知道一锅老母鸡汤的咸淡,不需要喝完所有的汤,只要摇匀,尝其一勺就可以了,这种思想就叫“抽样”。

样本:就是从总体中抽出的部分观察单位某项特征的集合。但是在抽样过程中必须遵守随机化的原则

随机化原则(random principle):是指总体中的任何一个观察单位都要有同等的机会被抽到作为样本进行研究。那么如何保证随机化抽样呢,一般包括单纯随机抽样、系统抽样、分层抽样、整群抽样和多级抽样等方法。此处不赘,感兴趣请查阅相关书籍。

随机化的形式:随机化抽样、随机化分组和随机顺序。

(三)参数与统计量(parameter and statistics)

参数:用于描述总体特征的指标;

统计量:用于描述样本特征的指标;

总体、样本、参数与统计量的关系如下图。


统计学存在的核心价值在于可以通过描述样本的统计量去推断描述总体的参数。这是通过偶然去发现必然的过程,这是通过一般去发现普遍的过程,这是以小见大的过程。

(四)误差(Error)

误差:观察值与真知之差。意即我们通过一次试验得到的结果与事件真实结果之间的差值。误差根据其产生的原因,分为四种:

(1)系统误差(systematic error):因为试剂为校正或者仪器没有调零等因素造成的研究结果倾向性的增大或减小。如我们路过药房,门口放个一个体重计,请问我们在称自己的体重之前,首先要干的第一件事情是什么呢?有同学说先把手上的包放掉,还有同学说我看看是不是要收费,呵呵!但从统计学角度,我们应该看看体重计上的指针是不是对准零,如果本身就有5Kg底重,那我们所有的同学去称,都将会重5Kg,即发生倾向性的偏大。其特点:倾向性的增大或减小以及可以避免,如果我们就行调零,我们就可以避免。

(2)随机误差(random error):是由各种偶然因素造成的观察值与真值之差。比如班级所有同学用同一把尺子测量我的身高,结果发现我的身高值是不一样的。其特点为:不可以避免,但可以减少。统计学有一定律叫做“测不准定律”,不管你怎么测,就是测不准,因此我们通常多次测而后取平均。

(3)抽样误差(sampling error):因为抽样造成的样本统计量与总体参数之间的差异。有同学肯定会说,刚才那一勺老母鸡汤的咸淡应该和锅里汤的咸淡是完全一样的啊,是的,刚才的例子是让你明白抽样的原理,而我们科学研究和喝老母鸡汤是不一样的,因为汤里的氯化钠是均匀分布的,而我们科学研究的目标事件是不均匀分布的。比如某个班级120名同学的近视眼患病率为50%,我按照随机化原则随机抽取50名同学,者50名同学的近视眼患病率绝对不等于50%,因为近视眼同学在班级中的分布是不均匀的,能理解吗,亲。因此抽样误差的特点为:不可以避免,但可以减少。我们可以通过增大样本量进行减少

(4)过失误差(gross error):

由于观察过程中的不仔细造成的错误判断或记录。过失误差可以通过仔细核对进行避免。

那我们统计学的存在主要是解决那种误差呢?我们通过统计设计减少系统误差、通过统计学检验去排除抽样误差的。



(五)概率与频率(probability and frequency)

概率(P:用于反映某一事物发生可能性大小的一种量度。一般用大写的斜体P表示。

我们根据食物发生概率的大小,把事件分为3类:P=1为必然事件,发生率为100%;P=0为不可能事件,发生率为0;0<><>

频率(f):是指我们进行了N次试验,其中一个事件出现的次数m与总的试验次数N的比值。

问题是:我们到底如何能够得到某一事件发生的概率呢,比如说谁能够告诉我一个半截粉笔从讲台上掉下摔断的概率P=?。我们至今的科学发展也没有办法通过公式去计算该值。那我们是怎么做的呢?有句话叫做“有些事情越想越烦,做起来却极其简单”。我们只需要那两盒同样的粉笔进行重复摔就可以了,如果总共100支粉笔,断了98只,那断的频率就等于f=98/100=0.98。而统计学上证实,当某事件发生次数较多时,频率就会收敛于概率。意即f=P。因此,其实我们就是通过频率去估计概率的。

(六)同质与变异(homogeneity and variation)

同质:是指观察单位所受的影响因素相同。而我们科研的观察单位所受的影响因素只可能相对的相同,不可能绝对的相同,因此,同质是相对的。

变异:是指观察单位在同质的基础上的个体差异。天底下没有两个完全一样的事物;一个人不可能两次踏入同一条河流,刚才说话的我已经不是现在说话的我了,因为天下唯一不变的就是变化。因此,变异是绝对的。

这一对概念对我们研究统计的意义:如果没有同质的话,就没有我们研究的总体或者样本。因为如果不同质,我们是不可能把他们放在一起进行研究的。如果没有变异,就根本没有统计学产生的必要,因为如果没有变异,我们拿1种药物治疗某病的1个病人,如果有效,该药对所有该病病人都应该有效,而那时不可能的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多