分享

看书《统计学》第2版 第6章 抽样与抽样估计

 taotao_2016 2023-10-13 发布于北京
图片

我最近为什么看《统计学》相关的书呢?

在处理水滴成核结晶的模拟轨迹时,需要计算未结晶概率,涉及同一工况下一定数量独立初始构型算例的成核时间,以及到底要算多少个独立初始构型的算例才能合理地计算成核速率。在论文中讲到用jackknife technique对样本数据进行再抽样,在看jackknife technique的资料中,有很多基本概念不理解(本科阶段学习的概率论与数理统计,在没有实际运用场景下,遗忘地差不多了)。不能准确地理解jackknife technique再抽样方法,就不能判断我计算出来的结果对不对,所以需要补基础知识。另外,分子动力学模拟的理论基础是统计力学,这部分基础知识也要补。

目前在看的统计学书有欧姆漫画社的《漫画统计学》(对话式的图文说明很容易理解,一般是在等待电脑处理数据时看一下)、微信读书上的《统计学》第2版(主要是方便坐车且不休息时看看),都是挑感兴趣的部分看,不是从前言开始。

简单回顾统计学 第6章 抽样与抽样估计

6.1 抽样推断概述 

6.2 抽样误差


1.为什么需要抽样?
想要知道总体的情况,但又没有那么多人力、物力、财力去对调查总体对象进行调查,所以对总体进行抽样。

2.抽样多大程度可以代表总体,可以用抽样误差来衡量,那抽样误差怎么算?
在说抽样误差之前,先说一下统计误差。

统计误差包含登记性误差和代表性误差,代表性误差根据有没有遵循随机原则而造成的误差又分为偏差(系统误差)和随机性误差(样本指标不可能代替总体指标,属于抽样推断本身固有的一种误差。)

之后谈到的抽样误差都是指随机性误差。

抽样误差有两种表现形式,即抽样实际误差和抽样平均误差。

抽样实际误差,意思是在一次抽样中,由随机因素引起的抽样指标与全及指标之间的离差。比如,抽样平均数与总体平均数的离差

图片

。因为在抽样中全及指标的数值是不知道的,所以抽样实际误差是计算不了的。另外,抽样实际误差是所有可能出现的误差的一种,所以不能用抽样实际误差来概括所有可能出现的误差。

抽样实际误差在实际中计算不了,那在实际中什么误差来评估呢?

用抽样平均误差,它是指抽样指标(比如抽样平均数)的标准差,可以反映所有抽样结果的抽样指标与全及指标 数值的平均离差。

抽样平均误差的计算公式有理论公式和实际公式。为啥要分理论公式和实际公式呢?理论公式有无法计算的值,具体是怎么样的呢?

前面提到抽样平均误差是抽样指标的标准差,所以不同于一般形式的标准差(根据变量值与算数平均数的计算),抽样平均误差是根据抽样平均数与总体平均数计算的,它的公式如下:

图片

第一个公式中的左侧表示平均数的抽样平均误差,右侧小x横表示抽样平均数,大X横表示总体平均数。

第二个公式中的左侧表示成数的抽样平均误差,右侧小p表示抽样成数,大P表示总体成数。

公式中的样本可能数目 跟每个样本的容量和抽样方法有关。当样本容量确定时,则样本可能数目就由抽样方法决定。

在实际抽样中,全及指标的数值是不知道的,并且不可能也不必把总体所有可能出现的样本都取出来。所以这个公式在实际中无法计算,仅有理论意义。

抽样平均误差的实际计算公式如何得到?

​书中用这么一句话来说明抽样平均误差的实际计算公式“数理统计证明,抽样平均误差(抽样指标的标准差)与总体标准差之间存在着一定的数量关系,从而可推导出抽样平均误差的实际公式如下:
图片
图片
图片
图片
图片
图片

图片
图片
图片

看书过程中,遇到不理解的,且书中也没有更多解释的概念

离差是什么意思?

ChatGPT:在统计学中,离差是一种用于衡量数据点或样本值与一些参考值之间的差异或距离的概念。离差通常用来衡量数据的离散程度或分散程度,或者表示一个数据点相对于某种基准值的偏离程度。

在抽样统计中,抽样指标与全指标之间的离差用来衡量样本数据与总体数据之间的差异。这可以帮助统计学家估计样本数据对总体的代表性程度。具体来说,考虑以下情况:

1. 总体数据:总体是您感兴趣的完整数据集,例如,整个国家的人口数据。
2. 样本数据:由于很难或不可能收集总体数据,您从总体中抽取了一个较小的样本,例如,从总人口中抽取了一组人的信息。
3. 抽样指标:您使用样本数据计算出的某些统计量,例如,样本的平均值、标准差等。
4. 全指标:与总体数据的相应统计量,例如,总体的平均值、标准差等。

离差就是抽样指标与全指标之间的差异。如果离差很小,那么样本数据很可能代表总体数据。如果离差很大,那么样本数据可能不太能代表总体数据,这可能影响到您对总体的统计推断。

例如,如果您从一个城市的人口中随机抽取了100人,计算了他们的平均年龄,然后将该值与整个城市人口的平均年龄进行比较,两者之间的差异就是离差。这个离差可以帮助您判断您的样本是否足够代表整个城市的年龄分布。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多