大数据知识合集之数据分析方法论

学掌门 2024-04-11 发布于上海

展开全文

常用数据分析方法：描述统计、假设检验、信度分析、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分分析、因子分析、时间序列分析等。

1、描述性统计分析

描述性统计分析是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析。

集中趋势分析：主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。

离中趋势分析：主要靠全距、四分差、平均差、方差（协方差：用来度量两个随机变量关系的统计量）、标准差等统计指标来研究数据的离中趋势。

2、假设检验

假设检验简单来说先凭借自己的直觉，经验，知识的储备做出合理的假设，再通过数据进行验证假设是否正确。主要包含：参数检验和非参数检验。

1. 参数检验

参数检验是在已知总体分布的条件下（一般要求总体服从正态分布）对一些主要的参数(如均值、百分数、方差、相关系数等）进行的检验，常用参数检验方法有：U检验法、T检验法

2. 非参数检验

非参数检验则不考虑总体分布是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假设（如总体分布的位罝是否相同，总体分布是否正态）进行检验。常用非参数检验方法包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

3、信度分析

信度（Reliability）：即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。一般多用于性格测试、问卷调查等。

信度指标多以相关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。信度分析的方法主要有以下四种：重测信度法、复本信度法、折半信度法、α信度系数法。

1）重测信度法：用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相关系数。显然，重测信度属于稳定系数。

重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变，这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2）复本信度法：让同一组被调查者一次填答两份问卷复本，计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到这种要求，因此采用这种方法者较少。

3）折半信度法：是将调查项目分为两半，计算两半得分的相关系数，进而估计整个量表的信度。折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表。进行折半信度分析时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数（rhh，即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式求出整个量表的信度系数（ru）。

4）α信度系数法：是目前最常用的信度系数，其公式为：α=(k/(k-1))*(1-(∑Si2)/ST2)

其中，K为量表中题项的总数， Si^2为第i题得分的题内方差， ST^2为全部题项总得分的方差。从公式中可以看出，α系数评价的是量表中各题项得分间的一致性，属于内在一致性系数。这种方法适用于态度、意见式问卷（量表）的信度分析。

总量表的信度系数最好在0.8以上，0.7-0.8之间可以接受；分量表的信度系数最好在0.7以上，0.6-0.7还可以接受。Cronbach 's alpha系数如果在0.6以下就要考虑重新编问卷。

4、方差分析

方差分析其实就是假设检验中的F-检验，主要针对的是两个及以上样本均值差别的显著检验。通过分析研究中不同来源的变异对总变异的贡献大小，从而确定可控因素对研究结果影响力的大小。

使用条件：各样本须是相互独立的随机样本；各样本来自正态分布总体；各总体方差相等。

单因素方差分析：一项试验只有一个影响因素，或者存在多个影响因素时，只分析一个因素与响应变量的关系；

多因素有交互方差分析：一顼实验有多个影响因素，分析多个影响因素与响应变量的关系，同时考虑多个影响因素之间的关系；

多因素无交互方差分析：分析多个影响因素与响应变量的关系，但是影响因素之间没有影响关系或忽略影响关系；

协方差分祈：传统的方差分析存在明显的弊端，无法控制分析中存在的某些随机因素，使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析，是将线性回归与方差分析结合起来的一种分析方法。

5、相关分析

相关分析：研究现象之间是否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。

例如，人的身高和体重之间；空气中的相对湿度与降雨量之间是否存在依存关系，都是相关分析研究的问题。

相关分析的方法很多，初级的方法可以快速发现数据之间的关系，如正相关，负相关或不相关。中级的方法可以对数据间关系的强弱进行度量，如完全相关，不完全相关等。高级的方法可以将数据间的关系转化为模型，并通过模型对未来的业务发展进行预测。

例如：以下是每日广告曝光量和费用成本的数据，每一行代表一天中的花费和获得的广告曝光数量。凭经验判断，这两组数据间应该存在联系，但仅通过这两组数据我们无法证明这种关系真实存在，也无法对这种关系的强度进行度量。因此我们希望通过相关分析来找出这两组数据之间的关系，并对这种关系进度度量。

单纯从数据的角度很难发现其中的趋势和联系，而将数据点绘制成图表后趋势和联系就会变的清晰起来。对于有明显时间维度的数据，我们选择使用折线图和散点图分别进行分析。

1. 通过折线图

为了更清晰的对比这两组数据的变化和趋势，我们使用双坐标轴折线图，其中主坐标轴用来绘制广告曝光量数据，次坐标轴用来绘制费用成本的数据。通过折线图可以发现，费用成本和广告曝光量两组数据的变化和趋势大致相同，从整体的大趋势来看，费用成本和广告曝光量两组数据都呈现增长趋势。从规律性来看费用成本和广告曝光量数据每次的最低点都出现在同一天。从细节来看，两组数据的短期趋势的变化也基本一致。

经过以上这些对比，我们可以说广告曝光量和费用成本之间有一些相关关系，但这种方法在整个分析过程和解释上过于复杂，如果换成复杂一点的数据或者相关度较低的数据就会出现很多问题。

2. 通过散点图

比折线图更直观的是散点图。散点图去除了时间维度的影响，只关注广告曝光量和费用成本这里两组数据间的关系。在绘制散点图之前，我们将费用成本标识为X，也就是自变量，将广告曝光量标识为y，也就是因变量。下面是一张根据每一天中广告曝光量和费用成本数据绘制的散点图，X轴是自变量费用成本数据，Y轴是因变量广告曝光量数据。从数据点的分布情况可以发现，自变量x和因变量y有着相同的变化趋势，当费用成本的增加后，广告曝光量也随之增加。

折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系，优点是对相关关系的展现清晰，缺点是无法对相关关系进行准确的度量，缺乏说服力。并且当数据超过两组时也无法完成各组数据间的相关分析。若要通过具体数字来度量两组或两组以上数据间的相关关系，需要使用第二种方法：协方差。

具体参考：https://blog.csdn.net/longxibendi/article/details/82558801

6、回归分析

回归分析研究的是因变量和自变量之间的定量关系，运用十分广泛，可以用于房价预测、销售额度预测、贷款额度预测等。常见的回归分析有线性回归、非线性回归、有序回归、岭回归、加权回归等。

线性回归(Linear regression) ：是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

一元线性回归分析：只有一个自变量X与因变量Y有关，X与Y都必须是连续型变量，因变量y或其残差必须服从正态分布。

多元线性回归分析：分析多个自变量与因变量Y的关系，X与Y都必须是连续型变量，因变量y或其残差必须服从正态分布。

Logistic回归分析：Logistic回归模型对因变量的分布没有要求，一般用于因变量是离散时的情况。

Logistic回归分为条件Logistic回归和非条件Logistic回归，条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

>>回归分析与相关分析的联系：

相关分析是回归分析的基础和前提。假若对所研究的客观现象不进行相关分析，直接作回归分析，则这样建立的回归方程往往没有实际意义。只有通过相关分析，确定客观现象之间确实存在数量上的依存关系，而且其关系值又不确定的条件下，再进行回归分析，在此基础上建立回归方程才有实际意义。

回归分析是相关分析的深入和继续。对所研究现象只作相关分析，仅说明现象之间具有密切的相关关系是不够的，统计上研究现象之间具有相关关系的目的，就是要通过回归分析，将具有依存关系的变量间的不确定的数量关系加以确定，然后由已知自变量值推算未知因变量的值，只有这样，相关分析才具有实际意义。

回归分析侧重于研究随机变量间的依赖关系，以便用一个变量去预测另一个变量；相关分析侧重于发现随机变量间的种种相关特性。

7、聚类分析

聚类分析是指样本个体或指标变量按其具有的特性进行分类，寻找合理的度量事物相似性的统计量。

通常，我们遇到的很多数据都没有很明确或具体的分类标签，我们利用聚类分析将看似无序的对象进行分组、归类，以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高，组间对象相似性较低。

在用户研究中，很多问题可以借助聚类分析来解决，比如，网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中，用户分类是最常见的情况。常见的聚类方法有不少，比如K均值（K-Means），谱聚类（Spectral Clustering），层次聚类（Hierarchical Clustering）等。

聚类分析是一种缺乏分类标签的分类方法，当我们对数据进行聚类并得到簇后，一般会单独对每个类进行深入分析，从而得到更加细致的结果。

以最为常见的K-means为例，K-means聚类步骤图解如下：

1）随机设置K个特征空间内的点作为初始的聚类中心，比如图2中的红蓝黄三个点作为聚类中心（图1–>图2）；

2）对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别（图3–>图4）；

3）接着对着标记的聚类中心，重新计算出每个聚类的新中心点（平均值）（（图5–>图6））；

4）如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程；

8、判别分析

判别分析：根据已掌握的一批分类明确的样品建立判别函数，使产生错判的事例最少，进而对给定的一个新样品，判断它来自哪个总体。主要包括以下几种方法：

l Fisher判别分析法

l BAYES判别分析法

9、主成分分析与因子分析

主成分分析（PCA）：主要是利用降维的思想，将K维数据映射到N维上，N维是全新的正交特征。