机器学习笔记（九）异常检测与推荐系统

印度阿三17 2019-10-29

展开全文

Anomaly detection（异常检测）

1、问题定义：假设数据集{x⁽¹⁾, x⁽²⁾, ..., x⁽³⁾}表示的数据都是正常的，则判断x_test是否异常。

若概率值 p(x_test) < ε，则表示异常；若 p(x_test) ≥ ε ，则表示正常。

2、Gaussian Distribution（高斯分布 / 正态分布）：

（1）分布：X ~ N(μ，σ²) μ为均值，σ²为方差.

（2）Parameter estimation（参数估计）：

给定数据集，估算出 μ 和 σ 的值.

3、应用高斯分布实现异常检测算法：

训练集：{x⁽¹⁾, x⁽²⁾, ..., x^(m)}，每一个数据都是 n 维向量.

建立模型：p(x) = p(x₁; μ₁, σ₁²) p(x₂; μ₂, σ₂²) p(x₃; μ₃, σ₃²) ... p(x_n; μ_n, σ_n²)

算法流程：

4、开发异常检测系统：

（1）使用带标签的数据集，y = 0表示正常，y = 1表示异常，即：

（2）训练集表示所有正常的样本集合（视为不带标签），设置交叉验证集和测试集：

举例：如果一共10000个正常数据，20个异常数据：

可以通过交叉验证集选择较好的 ε 参数. 选择算法评估结果最好的（F₁-score最高）.

（3）算法评估：

由于异常的数据占极少数，因此是倾斜类的情况，不能仅仅通过计算预测的准确率来评估系统。需要计算 precision、recall，并计算F₁-score.

5、异常检测与监督学习的区别：

既然异常检测也带有便签，为什么不直接用逻辑回归等方法进行分类预测呢？

6、特征量的选择：

（1）特征量的调整：

在对特征向量建模时，需要使得 x_i 服从正态分布，或者接近于正态分布，如下图所示：

若不服从正态分布，则需要进行修正，如下图所示：

（2）误差分析：

当某一个数据处于异常，但是系统并没有检测出，即 p(x) 取值仍然较大，则可能原因是特征较少。

如下图所示，当只有一个特征量时，p(x) 值较高，但拓展特征量后，发现它处在了高斯分布的外围区域.

7、Multivariate gaussian distribution（多元高斯分布）：

（1）问题背景：

在监测数据中心的例子中，有两个特征 x1 和 x2，当出现一个异常的样本，它有较低的CPU load和较高的Memory Use，在 x1 和 x2的正态分布图中可以看出，该样本含有较高的 p(x1) 和 p(x2)，也就是有较高的 p(x)，并不会被判定为异常.

原因分析：我们倾向于认为两个特征所构成的区域具有较为均匀的概率分布.

（2）算法改进：

X的协方差矩阵，第 i 行第 j 列表示 x_i 和 x_j 的协方差，

举例：

（3）应用多元高斯分布：

① 计算参数，拟合模型：

② 对于新样本计算 p(x)：

若 p(x) 小于阈值，则判定为异常点.

（4）多元高斯分布模型与常规高斯分布模型的联系：

常规高斯分布模型对应多元高斯分布模型的情况：Σ 非对角线元素全为0.

对于误差情况，一种方法是增加特征量（上文已阐述），另一种方法是使用多元高斯模型自动捕捉不同特征量之间的相关性.

常规高斯分布 Original model	计算量小，n 较大的情况也适用.
	即时样本数 m 较少也适用.
多元高斯分布 Multivariate gaussian	Σ 计算量大，适用于 n 较小的情况.
	必须满足 m > n，否则 Σ 不可逆. 要求 m >> n.