分享

正态分布的应用——基于正态分布检验产品合格性(理论)

 fjgsd 2020-06-18
内容导入:概念介绍:

分布的概念:

数据分布,是指在统计分组的基础上,将总体中各单位按组归类整理,按一定顺序排列,形成的总体中各单位在各组间的分布。其实质是,在各组按顺序排列的基础上,列出每个组的总体单位数,形成一个数列,称次数分布数列,简称分配数列,各组的总体单位数叫次数或频数。一般用次数分布表和次数分布图来表示。数据分布的基础是数据频度分布表。

我们可以扔 10,000 次骰子,每次骰子会产生 6 个可能的值,我们可以创建 6 个桶。并记录每个值出现的次数。

正态分布的应用——基于正态分布检验产品合格性(理论)

由频数分布表可以转换为频数分布图,我们可以根据这些值作图。所作曲线就是概率分布曲线,目标变量得到一个值的概率就是该变量的概率分布。

正态分布的应用——基于正态分布检验产品合格性(理论)

如何描述频度分布图的特点呢?

1、左边数据多还是右边数据多?

2、左边陡峭还是右边陡峭?

3、是否存在极大极小的离群值?

4、是‘凸’的还是‘凹’的?

5、总体的形状像什么?

偏度:描述数据偏向,大数据多还是小数据多,刻画的是中位数、众数与平均值的关系;峰度:是‘凸’的还是‘凹’,数据形状,陡峭程度偏度+峰度:刻画数据离群值状况。这些内容在后期给大家介绍。

数据分布如果满足一些特性,就会转变为正态分布。正态分布是统计学应用非常广泛的分布图形,接下来让我们来看看吧。

正态分布的概念:

如果对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。正态分布也被称为高斯分布

正态分布的应用——基于正态分布检验产品合格性(理论)

若随机变量服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度函数为

正态分布的应用——基于正态分布检验产品合格性(理论)

正态分布,当其平均值与标准差满足一定条件时,就会变成标准正态分布。当

正态分布的应用——基于正态分布检验产品合格性(理论)

时,正态分布就成为标准正态分布。表达方式为

正态分布的应用——基于正态分布检验产品合格性(理论)

正态分布的特点:1、集中性。正态曲线的高峰位于正中央,即均数所在的位置;2、对称性。正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交;3、均匀变动性。正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

综合应用场景:

正态分布的应用十分广泛,比如假设检验、3σ异常值检测等,这次先给大家介绍P值与3σ原则。

P值应用案例:

P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。如果0.01<P值<0.05,说明较弱的判定结果,拒绝假定的参数取值。如果P值>0.05,说明结果更倾向于接受假定的参数取值。目前最常用的是0.05这个界限。

P值是什么呢?P值是标准正态分布的面积,标准正态分布面积为1,P值代表不合格的容忍度。比如0.05这个界限,代表的是容忍5%以下的出错率。

不好理解对吗?小海马给大家准备了通俗易懂的视频,方便大家理解,视频不长,大家可以关注我们的微信公众号进行视频的学习。

3σ应用案例:

除了P值的应用,3σ也是正态分布在生产中较为广泛的应用。3σ原则通常用于剔除数据异常值,用样本简单推定总体的方法。应用这个原则,是有条件的,数据需要符合正态分布。σ是指什么呢?σ是指标准差。

先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除就得出3σ。

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴。

数值分布在(μ-σ,μ+σ)中的概率为0.6826;

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544;

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974;

可以认为,数据的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%。通常把等于±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有0.27%,它在测量中发生的可能性很小,故存在3σ准则。

理论听着过于抽象,我举个例子。假设我厂今日生产出1000万个口罩,随机抽样3次,每次抽样10000进行检测,使用3σ原则辨别这批口罩是否合格。

第一种情况

第一次有5个不合格;第二次有3个不合格;第三次有4个不合格。

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,不合格率容忍度为0.26%,第一次不合格率为0.05%;第二次不合格率为0.03%;第三次不合格率为0.04%,均小于0.26%的标准,因此抽样是合格的。因为是随机抽样,样本与总体的分布一致,因此我们合理推测总体是合格的。

第二种情况

第一次有50个不合格;第二次有83个不合格;第三次有101个不合格。

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,不合格率容忍度为0.26%,第一次不合格率为0.5%;第二次不合格率为0.83%;第三次不合格率为1.01%,均大于0.26%的标准,因此抽样是不合格的。因为是随机抽样,样本与总体的分布一致,因此我们合理推测总体是不合格的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多