不懂统计和数据分析讲的是什么？看这篇就够了，干货值得收藏

东西二王 2019-10-04

展开全文

数据分析与统计的骨干知识点集合。

1 数据分析概述

数据分析是基于某种业务目的，有目的的处理数据，提取有价值的信息，解决各种业务问题的过程。

目的/出发点：设立目标或业务需求，明确问题
方法：根据不同场景选定分析方法
结果：目标解释或业务应用（to do），创造价值

1.1 数据分析流程

目的和内容：明确项目整体框架或业务问题
数据收集：根据假设或问题树收集相应数据，要求数据准确、有效；SQL、业务调整信息
数据预处理：检验-清理，可比（例如标准化、得分转换等），论证
数据分析：方法、工具的选取
数据表达：图表
数据报告：结论、建议&解决方案

1.2 数据分析方法

预处理加工：描述性统计分析（数据分布、数据趋势）、相关分析（正负相关、拟合、相关系数）
基于数理统计：方差分析、回归分析、因子分析
数据挖掘：聚类（层次分析、K均值、模糊聚类、高斯回归）、分类（决策树、神经网络、贝叶斯分类、SVM、随机森林）、回归分析（线性回归、logistic回归）

1.3 数据分析工具

Excel-SQL、R、Python、BI、HADOOP、Spark......

2 数据趋势

2.1 计量尺度

计量尺度是刻画或比较数据的标准，分为四类：

定类尺度：分类，例如性别；可用 = 或 != 进行运算
定序尺度：有序列分类，例如职称级别（讲师、副教授、教授）；可用=、!= 或 <、>进行运算
定距尺度：例如温度；可用=、!= 或 <、>或、- 进行运算
定比尺度：可用于数据大小、属性、加减乘除等；可用=、!= 或 <、>或、- 、*、/ 进行运算

其中，定类、定序用于刻画定性数据；定距、定比用于刻画定量数据。

2.2 数据集中趋势

平均数：算法平均数、加权平均数、几何算法平均数（几何平均数是n个变量值连乘积的n次方根：对比率、指数等进行平均；复利下的平均年利率；连续作业的车间求产品的平均合格率）
众数：频数最大的数据
分位数：1/4；中位数；3/4位数

2.3 数据离中趋势

极值：d = max - min，可粗略检查产品质量和稳定程度
四分位点内距：IQR = Q_3 - Q_1，反映数据中间部分的差距
方差variance：观察值的离均差平方和的算术平均数；刻画数据的波动程度和稳定性；区分总体方差和样本方差
标准差standard deviation：方差的平方根；与原始数据单位相同，较方差更易于解释
变异系数/离散系数cofficient of variation：标准差/均值 * 100；百分比形式；去量纲、比较多组数据波动程度

3 数据分布和展示

3.1 数据分布

数据分布用来描述变量的概率分布，即数据在各个区间分布的多少。

可用数据偏态、数据峰度对数据分布进行描述。

3.1.1 数据偏态

对称分布：平均数=中位数=众数
非对称分布时即存在偏态，分为右向偏态和左向偏态

右向偏态：平均数>众数，极端值在右侧，曲线向右延伸
左向偏态：平均数<众数，极端值在左侧，曲线向左延伸

偏态的描述方法：偏态系数SK（=0对称分布，>0正偏态，<0负偏态）

3.2.1 数据峰度

数据峰度用于刻画数据的尖峭程度。

标准峰度：正态分布对应的标准峰度
尖顶峰度：数据在众数周围分布较集中
平顶峰度：数据在众数周围分布相对分散，扁平
峰度描述方法：峰度系数K（=0标准峰度，>0尖顶峰度分布，<0平顶峰度分布）

3.2 数据展示

条形图：分组后统计结果的展示
扇形图：各类别占比的分布
折线图：表示统计数据的增长变化，主要用于展示时间序列的数据
直方图：用于表示数据的分布情况
盒式图：显示数据的离散情况，中位数、四分位数、上下边缘、异常值（四分位与边缘间为温和异常值，上下边缘以外为异常值）

上下边缘不是极大极小值，上边缘 = Q3 1.5（Q3-Q1），下边缘 = Q1 - 1.5（Q3-Q1）
使用箱式图判断异常值无需假设数据服从正态分布（相比3sigma方法），并且数据抗耐高

4 数理统计基础知识

4.1 随机变量及其概率描述

随机现象：具有偶然性，并不总出现相同结果的事件
随机事件：随机现象的某些基本结果组成的集合（不能确定是否发生，多次试验结果具有规律性），使用随机变量对随机事件的可能性进行描述
概率：预测事件发生的可能性，试验中事件的发生次数/总试验次数
随机变量的分布

离散型：有限个点或可列出，分布类型包含二项分布、泊松分布
连续型：区间；均匀分布、指数分布、正态分布

条件概率：B发生时A发生的概率=AB同时发生概率/B发生的概率
相互独立事件：P(A|B)=P(A) & P(B|A)=P(B) & P(AB)=P(A) x P(B) ，例如有放回抽样

4.2 常见分布类型介绍

正态分布

正态分布是对称的，概率曲线最高点在均值处，标准正态分布是指均值为0，标准差为1的正态分布、

3sigma准则：质量检测、剔除异常值

z标准化：将正态分布转化为标准正态分布

卡方分布

用于卡方检验

若n个相互独立的随机变量ξ₁，ξ₂，...,ξn ，均服从标准正态分布（也称独立同分布于标准正态分布），则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量，其分布规律称为卡方分布

t分布

t分布是一簇曲线，其形态变化与n（确切地说与自由度df）大小有关。自由度df越小，t分布曲线越低平；自由度df越大，t分布曲线越接近标准正态分布（u分布）曲线。

t检验、独立性检验等

F分布

用于方差分析、方差检验

4.3 大数定律&中心极限定理

大数定律

在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。

中心极限定理

对于任何分布的总体，若样本容量较大，能够用正态概率分布来近似样本均值的抽样分布。

通常样本容量达到30（样本中的单位数达到30）即可满足定理的大样本条件。

5 抽样估计

5.1 抽样概念引入

抽样：使用局部估计整体

总体相关概念

总体：根据研究目标确定的对象全体，未必是全量用户
总体指标：均值、比重结构等
个体：总体中的每个元素，具有同质性（满足同一研究目标）、大量、差异性；个体总数称为总体容量N

样本相关概念

样本：随机从总体中抽取的部分个体
样本指标：样本均值、样本方差
样本容量：样本中的个体数量

抽样估计：利用样本指标估计总体值班表

要求：随机性、独立性

5.2 区间估计

相关指标

置信区间：精确性
置信系数：可靠性
显著性水平：alpha，表示不可靠概率

检验统计量

根据样本容量不同、估计均值或比例的不同，选取不同的检验统计量

大样本——z分布

小样本——t分布

6 假设检验

6.1 概念

通过样本数据检验对总体的假设。

基本思想：反证法，基于小概率时间不发生的准则和总体的假设，根据样本数据获得的样本统计量分布，得到抽样过程中的极端或错误现象的小概率时间，从而做出对假设的否定判断。

假设：原假设、备择假设

6.2 假设检验方法

建立假设：通常希望证伪的假设作为原假设，反之为备择假设
选择检验统计量：
确定拒绝域：给定显著性水平，从而确定拒绝域
计算检验统计量，做出判断：计算结果落在拒绝域中，则表明小概率事件发生，拒绝原假设

6.3 常见检验统计量

Z检验：统计量满足正态分布。用于单个正态总体均值检验；两个正态总体均值之差检验，方差已知；
t检验：统计量满足t分布。单个正态总体均值检验，方差未知；两个正态总体均值/比例检验，方差相等但未知（同一群体的两次实验）；两个正态总体均值/比例检验，方差不等且未知（AB测试）
卡方检验：统计量服从卡方分布，样本来自正态总体，用于单个正态总体方差检验；
F检验：统计量服从F分布，样本数据来自两个正态总体，用于两个正态总体方差检验。

Z、t检验用于均值或比例检验，卡方和F检验用于方差检验