正态分布的应用——基于正态分布检验产品合格性（理论）

fjgsd 2020-06-18

展开全文

内容导入：概念介绍：

分布的概念：

数据分布，是指在统计分组的基础上，将总体中各单位按组归类整理，按一定顺序排列，形成的总体中各单位在各组间的分布。其实质是，在各组按顺序排列的基础上，列出每个组的总体单位数，形成一个数列，称次数分布数列，简称分配数列，各组的总体单位数叫次数或频数。一般用次数分布表和次数分布图来表示。数据分布的基础是数据频度分布表。

我们可以扔 10,000 次骰子，每次骰子会产生 6 个可能的值，我们可以创建 6 个桶。并记录每个值出现的次数。

正态分布的应用——基于正态分布检验产品合格性（理论）

由频数分布表可以转换为频数分布图，我们可以根据这些值作图。所作曲线就是概率分布曲线，目标变量得到一个值的概率就是该变量的概率分布。

正态分布的应用——基于正态分布检验产品合格性（理论）

如何描述频度分布图的特点呢？

1、左边数据多还是右边数据多？

2、左边陡峭还是右边陡峭？

3、是否存在极大极小的离群值？

4、是‘凸’的还是‘凹’的？

5、总体的形状像什么？

偏度：描述数据偏向，大数据多还是小数据多，刻画的是中位数、众数与平均值的关系；峰度：是‘凸’的还是‘凹’，数据形状，陡峭程度偏度+峰度：刻画数据离群值状况。这些内容在后期给大家介绍。

数据分布如果满足一些特性，就会转变为正态分布。正态分布是统计学应用非常广泛的分布图形，接下来让我们来看看吧。

正态分布的概念：

如果对概率分布作图，得到一条倒钟形曲线，样本的平均值、众数以及中位数是相等的，那么该变量就是正态分布的。正态分布也被称为高斯分布。

正态分布的应用——基于正态分布检验产品合格性（理论）

若随机变量服从一个位置参数为μ、尺度参数为σ的概率分布，且其概率密度函数为

正态分布的应用——基于正态分布检验产品合格性（理论）

正态分布，当其平均值与标准差满足一定条件时，就会变成标准正态分布。当

正态分布的应用——基于正态分布检验产品合格性（理论）

时，正态分布就成为标准正态分布。表达方式为

正态分布的应用——基于正态分布检验产品合格性（理论）

正态分布的特点：1、集中性。正态曲线的高峰位于正中央，即均数所在的位置；2、对称性。正态曲线以均数为中心，左右对称，曲线两端永远不与横轴相交；3、均匀变动性。正态曲线由均数所在处开始，分别向左右两侧逐渐均匀下降。

综合应用场景：

正态分布的应用十分广泛，比如假设检验、3σ异常值检测等，这次先给大家介绍P值与3σ原则。

P值应用案例：

P值是用来判定假设检验结果的一个参数，也可以根据不同的分布使用分布的拒绝域进行比较。如果P<0.01，说明是较强的判定结果，拒绝假定的参数取值。如果0.01<P值<0.05，说明较弱的判定结果，拒绝假定的参数取值。如果P值>0.05，说明结果更倾向于接受假定的参数取值。目前最常用的是0.05这个界限。

P值是什么呢？P值是标准正态分布的面积，标准正态分布面积为1，P值代表不合格的容忍度。比如0.05这个界限，代表的是容忍5%以下的出错率。

不好理解对吗？小海马给大家准备了通俗易懂的视频，方便大家理解，视频不长，大家可以关注我们的微信公众号进行视频的学习。

3σ应用案例：

除了P值的应用，3σ也是正态分布在生产中较为广泛的应用。3σ原则通常用于剔除数据异常值，用样本简单推定总体的方法。应用这个原则，是有条件的，数据需要符合正态分布。σ是指什么呢？σ是指标准差。

先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除就得出3σ。

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴。

数值分布在（μ-σ,μ+σ)中的概率为0.6826；

数值分布在（μ-2σ,μ+2σ)中的概率为0.9544；

数值分布在（μ-3σ,μ+3σ)中的概率为0.9974；

可以认为，数据的取值几乎全部集中在（μ-3σ,μ+3σ)]区间内，超出这个范围的可能性仅占不到0.3%。通常把等于±3σ的误差作为极限误差，对于正态分布的随机误差，落在 ±3σ以外的概率只有0.27%，它在测量中发生的可能性很小，故存在3σ准则。

理论听着过于抽象，我举个例子。假设我厂今日生产出1000万个口罩，随机抽样3次，每次抽样10000进行检测，使用3σ原则辨别这批口罩是否合格。

第一种情况：