数据挖掘算法

求是1025 2023-04-01 发布于山东

展开全文

①人工神经网络（ANN）。借鉴人的大脑工作原理方式建立的信息处理系统。该算法具有自适应、自组织和实时学习的特点，始于1943的MP模型。②决策树（DT）。通过数据的属性特征建立的一种树状分类模型。在每个节点通过某种规则去分类对象，通常采用信息熵去建立树状结构的模型。常用的决策树算法包括 ID3、C4.5和随机森林（random forest）。③k最近邻(k-nearest neighbor，KNN)分类算法。1968年由T.M.科弗和P.E.哈特提出。该算法把性质相近的一些对象看作一类，在训练数据集中找到与该例子最邻近的k个例子，若这k个例子的大多数属于某个类别，那么就把该输入例子分类到这个类别中去。④k均值算法（k-means）。一个以距离测度为基础的聚类算法。该算法中一个簇是由与聚类中心相似度高的对象组成，因此把与距离聚类中心接近的对象组成一簇。初始的聚类中心预先设定，通过迭代算法直到聚类中心不再改变算法停止。⑤支持向量机 (support vector machine，SVM)。该算法是建立一个平面（二维空间）或者超平面（高维空间）把不同类别的对象分开。1995年由Corinna Cortes和Vapnik 提出的一种监督式学习方法。对于复杂的数据很难建立平面或者超平面将数据分开。在这种情况下，一个关键的核技术把复杂的数据映射到一个高阶向量空间中，就可以解决这种复杂数据的分类问题。⑥Aprior算法。1994年由Agrawal和Srikant提出，是一种基于关联规则下的层次搜索算法，广泛应用于市场预测和网络检测。⑦最大期望算法 (exception maximization algorithm，EM算法)。1977 年由Dempster、Laind和Rubin 提出。通过极大似然估计的方式求解模型参数。此外，该算法可以处理缺损以及带有噪声的不完全数据集。⑧PageRank 算法。1998年由Larry Page 和Sergey Brin 提出，是Google算法的基础。根据网页链接的次数计算PageRank（PR）值，基于PR值得到网页排名，这是该算法的核心思想。尽管该算法功能强大但也有一些弊端，比如：站内链接不能区分，以及广告链接没有过滤。⑨Adaboost。一种经典的提升算法，其核心思想是根据一系列弱分类器在以往分类的结果下去不断调整它们在下轮分类的权重向量，最终得到一个强分类器算法。通过分类准确率赋予弱分类器在下一轮的权重，也就是说如果元组不正确地分类，则它在下一轮的权重就要增加；如果元组正确分类，则它在下一轮中的权重减少。⑩朴素贝叶斯模型（naive Bayesian model，NBC）。该算法以概率相互独立为基本条件，借助贝叶斯定理基于对象的先验概率计算对象的后验概率。