分享

数据挖掘

 求是1025 2023-03-31 发布于山东

数据库中知识发现(knowledge discovery in database)是指将未加工的数据转换为有用信息的整个过程,此过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。数据挖掘技术可以用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

数据挖掘利用了来自如下领域的思想:①统计学的抽样、估计和假设检验。②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。③最优化、进化计算、信息论、信号处理、可视化和信息检索等领域的思想。

通常,数据挖掘任务分为两大类:①预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。②描述任务。此任务的目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。其中,预测建模涉及以自变量函数的方式为因变量建立模型。有两类预测建模任务:一个是分类,用于预测离散的因变量;另一个是回归,用于预测连续的因变量。

关联分析、聚类分析和异常检测是实现数据挖掘任务的方法。关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有趣的模式。聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。

数据挖掘主要算法有决策树算法(如C4.5和CART算法)、K均值聚类算法、支持向量机、Apriori关联算法、EM最大期望算法、连接分析算法(如PageRank算法)、AdaBoost迭代算法、k邻近算法、朴素贝叶斯算法等。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多