分享

关于描述性统计……

 高山拂尘 2023-03-12 发布于北京

图片

在大数据漫天飞舞的时代,作为专业的质量从业人员您是否会数据分析与统计呢?
完成数据分析的第一步,您必须掌握描述性统计(Descriptive Statistic)分析。

数据统计分析

也许很多人会疑惑:我每天用Excel都会做数据分析,诸如直方图、饼图、柏拉图,过程能力分析Cpk等,质量管理中的数据统计还有什么新花样呢?
今天让我们回归统计学的基础,系统性的看看描述性统计是怎么回事。先让我们看看数据统计的分类。

图片

统计进一步分为两种类型:描述性统计和推断性统计。今天,我们来看看描述性统计,包括定义、描述性统计的类型以及描述性统计和推断性统计之间的区别。

什么是描述性统计

图片

描述性统计描述、显示和总结抽样(samples)或总体(population)测量的数据的基本特征,以描述这些测量数据的摘要汇总。它可以帮助分析人员更好地理解数据。描述性统计分析被分解为测量对象的集中趋势(位置或中心)的度量和变异性(波动或分布)的度量。集中趋势的度量包括均值、中位数和众数,而变异性的度量包括标准差、方差、极差、峰度和偏度。
让我们用一组简单的数据(4、6、7、8、8、9、10)来看这些基本概念:

图片

除了上述度量被测量对象的中心位置和波动的特征以外,还有关于数据分布的偏度(Skewed)和峰度、对称性等。

正态分布

许多连续随机变量具有钟形或某种程度的对称分布。这是一个正态分布。换句话说,其相对频率直方图的概率分布遵循正态曲线。该曲线呈钟形,关于均值对称,由 µ 和 σ(均值和标准差)定义。

图片

正态分布

分布形状属性:峰度和偏度
峰度和偏度是帮助您了解数据分布的一般属性的两种度量。这些度量将您的分布形状与对称分布和正态分布进行比较。
当峰度或偏度显著偏离零时,可能表明您的数据不服从正态分布。但是,请使用正态性检验或正态分布图来做出该决定。

图片

偏态和对称分布的图示

图片

偏度

偏度表示数据分布的对称性。倾斜的数据是不对称的。术语右偏和左偏表示长尾在分布曲线上指向的方向。

图片

使用Minitab和Excel软件的案例分析

可能很多同学,看到这儿就开始疑惑,描述性统计和我有什么关系。接下来让我们分析一个具体的案例。

图片

某知名的整车厂,向两家供应商采购凸轮轴(Cam Shaft),在整车的装配线上,有一个长期慢性的问题是凸轮轴的长度偶尔会超出设定的公差范围。这将会导致生产线较差的适配性组装,从而有很高的报废和返工率。
该整车厂组装线有四个班,经过小组讨论决定每班每次测量五个凸轮轴并使得每天有总共二十个样本。连续5天抽样取得每家供应商各有100个数据。而产品的公差设计范围是:600 mm±2mm。
让我们分别用Minitab和Excel来做描述性统计分析看看你会发现什么?

Minitab

打开 Minitab 并在电子表格中输入数据。您可以选择“显示描述性统计…”也可选择“图形化汇总…”,下面以后者为例进行分析。

图片

图片

图片

通过分析两家供应商的分析结果如上。大家从左侧的直方图和右侧的数据看到什么结论了吗?您应该对供应商1和2分别采取什么管理策略呢?(参见文末的提示)

Excel

很多同学说,我没有Minitab。其实Excel同样可以完成描述性分析。
打开Excel 并在电子表格的第一列中输入数据。选择数据>数据分析>描述性统计。【提示:如果要计算 Excel 描述性统计数据,则必须在 Excel 中加载数据分析工具库。单击 Excel 中的“数据”选项卡。如果在工具栏右侧没有看到“数据分析”,则需要先加载工具库。】

图片

图片

图片

接下来选择数据>数据分析>直方图,你同样可以画出类似于Minitab中的直方图。
描述性统计总结了您的数据集,绘制了其可视化的图表。包括各种集中趋势和变差的度量、分布属性等信息。

描述性统计与推断性统计

描述性统计与推断性统计具有不同的功能,推断性统计是用于做出决策或将一类产品的数据的特征(均值、标准差等)应用于另一组产品的数据特性上。
想象一下老干妈公司销售辣酱的例子:公司收集的数据包括销售额、每笔交易的平均购买数量以及一周中每天的平均销售额。所有这些信息都是描述性的,因为它讲述了过去实际发生的事情。

图片


假设老干妈想要推出一种新的辣酱。它收集与上面相同的销售数据,但它对信息进行加工以预测新辣酱的销量。使用描述性统计并应用于不同产品簇的行为使数据成为推断性统计。我们不再简单地汇总数据;我们正在使用它来预测对于完全不同的数据(新的辣酱产品)会发生什么。

结论

描述性统计可用于两件事:1) 提供有关数据中变量的基本信息(单组数据)和2)突出变量之间的潜在关系(两组或多组数据用散点图、相关性分析等)。描述性统计仅对用于计算它们的数据集做出陈述。

图片

关键要点:

  • 描述性统计总结或描述数据集的特性。

  • 描述性统计包括三个基本类别的度量:集中趋势度量、变异性(或分布)度量和频率分布度量。

  • 集中趋势的度量描述了数据集的中心(均值、中位数、众数)。

  • 可变性度量描述了数据集的分散(方差、标准差)。

  • 频率分布度量描述了数据集内数据的出现(计数),最后通过峰度和偏度等体现出来。

【文中案例分析提示】:

1. 从Minitab或Excel的分析可以看出,供应商1的P值为0.029小于0.05,显示供应商1的数据呈现非正态分布。

2. 供应商1的标准差小于供应商2,显示其更加稳定。供应商1的峰度大于0,而供应商2的峰度小于0也验证了此结论。

3.供应商1的均值小于理论值600,偏左,其偏度为负值也验证此结论。

4.接下来你可以对两家供应商的产品做控制图和过程能力的分析,进一步诊断他们过程的稳定性。但是最重要的,从两供应商目前的结果来看质量都非常令人堪忧,您的团队必须深入供应商车间现场完成根源分析RCA和持续改善。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多