分享

数据分析基本概念

 blackhappy 2019-11-24

1.统计与挖掘

统计和挖掘最大的差别在于:统计是事先设想好的一个动作,然后去验证它。

例如先假设销售收入和销售投入之间有关系,公司多投钱给推销人员去拜访客户,就能获得更多的用户和订单,销售收入就能上升,然后我们用统计的模型去验证它。

在分析这个数据之前,是没有“假定”的,我们不知道最后做出来的结果是什么样的。这就是数据挖掘,从大量的数据中通过各种方法找出隐藏于其中的信息。

2.平均值

在数据量大的情况下,平均值反映的是一个数据“应该”是什么。

如果说平均值反映了数据的“中轴线”,那么标准差就反映了数据的波动情况,也就是说数据是波澜不惊还是起伏不定。

3.标准差

如果说平均值反映了数据的“中轴线”,那么标准差就反映了数据的波动情况,也就是说数据是波澜不惊还是起伏不定。

4.正态分布

数据分析基本概念

正态分布的规律:

1)两边基本是对称的。

2)形状像一个倒扣的“钟”。

3)高峰在中间,越到中间,数据分布的概率越大,越到两边,概率就越小。

这个看上去很简单的正态分布,其实就是统计分析的重要基础,实际上很多统计规律都是建立在数据正态分布的基础上的。或者说,如果数据不是正态分布的,那么很多统计规律则是不成立的。

根据正态分布的规律可以得到,绝大部分(95%)的数据,是分布在居中的位置上的,只有很小概率的事件分布在正态曲线两侧,这个就是假设检验中的单侧和双侧,如图所示。

数据分析基本概念

5.峰度和偏度

峰度和偏度算是数据分析中比较专业的概念了,峰度反映的是数据中极值的情况,请看图峰度的数据。

数据分析基本概念

极值是-10的时候,KURT函数(返回一组数据的峰度系数(Kurtosis)。峰度系数反映与正态分布相比某一分布的相对尖锐度或平坦度。正峰度系数表示相对尖锐的分布。负峰度系数表示相对平坦的分布。)结果为21.86,下面观察一下当极值范围在-10和10之间时,KURT函数的取值结果,如图所示。

数据分析基本概念

当极值与原值的取值范围比较接近的时候,峰值会接近于0,而极值与原值的范围差距比较大时,峰度值会变大,但是无论是正极值还是负极值,峰度的最大值都是23左右。

偏度是衡量数据对称性的一个重要指标,EXCEL中对应的函数是SKEW,它用于比较对象正态分布曲线,如图所示,这是一个左偏的数据图。

数据分析基本概念

数据明显左偏,其偏度值为0.346,再来看看下图,这是一个右偏的数据图。

数据分析基本概念

数据的偏度为-0.098,此时数据明显右偏。因此根据偏度值判断数据对称性的规则如下:

❑ 数据服从正态分布,偏度为0。

❑ 数据左偏,偏度>0。

❑ 数据右偏,偏度<0。

6.连续和离散

连续变量和离散变量是数据分析中经常碰到的概念,所谓连续变量就是一个区间里可以任意变化的量。

离散变量内部也有区分,图所示为离散型变量的分类。

数据分析基本概念

7.因变量和自变量

因变量,一般指的是我们研究和关心的变量,自变量一般就是其发生变化后会引起其他变量变化的变量。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多