了解数据分析常用的基本概念

yi321yi 2019-09-09

展开全文

数据统计和数据挖掘

“统计”,对于大多数人来说不是很陌生,在“统计”、“挖掘”这两个概念中,可能大家往往会觉得“挖掘”更难理解。统计和挖掘最大的差别在于:统计是事先设想好的一个动作,然后去验证它。例如先假设销售收入和销售投入之间有关系,公司多投钱给推销人员去拜访客户,就能获得更多的用户和订单,销售收入就能上升,然后我们用统计的模型去验证它。而数据挖掘是：在数据中看不到一定的规律，然后从大量数据中通过各种方法（一些算法等）找出隐藏的规律信息。

平均值

平均值基本都明白他是如何计算的,但是平均值的功能是：在数据量大的情况下,平均值反映的是一个数据“应该”是什么。例如：在一次考试结束后，平均成绩是75.6分，那么每个人就“应该”考到75.6分。

标准差

如果说平均值反映了数据的“中轴线”,那么标准差就反映了数据的波动情况,也就是说数据是波澜不惊还是起伏不定。“平均值标准差”仿佛就是一对结义兄弟,焦不离孟、孟不离焦,我们经常用这个组合来衡量数据的变动范围，如下平均值和标准差的分布图。

正态分布

首先看一张图

从上图我们可以总结出规律：“中间是凸起的，两边是凹下的，像一个山峰”。

1.两边基本是对称的。

2.形状像一个的“钟”。

3.高峰在中间，越到中间，数据分布概率越大，越到两边，概率越小。

这个看上去很简单的正态分布,其实就是统计分析的重要基础,实际上很多统计规律都是建立在数据正态分布的基础上的。或者说,如果数据不是正态分布的,那么很多统计规律则是不成立的。

峰度和偏度

峰度和偏度是数据分析中比较专业的概念了，峰度反映的是数据中极值的情况,看下图：

极值是-10的时候，KURT函数的结果是21.9569，然后看看当极值在-10到10之间的KURT函数结果图：

可以看出,当极值与原值的取值范围比较接近的时候,峰值会接近于0,而极值与原值的范围差距比较大时,峰度值会变大,但是无论是正极值还是负极值,峰度的最大值都是22左右。

偏度是衡量数据的对称性的重要指标，Excel中对应的函数是SKEW，它用于比较正态分布的曲线。

左偏度的图：

数据明显是偏左的，偏度是0.346382，然后看看右偏度：

数据明显右偏，数据的偏度为-0.098。因此根据偏度值判断数据

对称性的规则如下:

数据服从正态分布,偏度为0。

数据左偏,偏度>0。

数据右偏,偏度

连续和离散

连续变量和离散变量是数据分析中经常遇到的，所谓的连续变量就是变量是在一个区间里面可以任意变化，例如：某个销售员的销售业绩在10w到20w之间，每个值都有可能取到。离散变量就是只能去几个值，例如：天气预报的雾霾等级是优、良、中、轻度污染、重度污染。

因变量和自变量

因变量,一般指的是我们研究和关心的变量,自变量一般就是其发生变化后会引起其他变量变化的变量。因变量和自变量说起来很容易,但是在实际的数据分析中,往往会容易混淆。例如：“销售收入和销售费用”在判断因变量和自变量比较简单方法:时间上靠前的就是自变量,时间上靠后的就是因变量。在实际销售工作中,基本都是先有销售费用,然后才有销售收入的,因此销售费用是自变量,销售收入是因变量。