配色: 字号:
part0-数据挖掘引文
2018-07-04 | 阅:  转:  |  分享 
  
数据挖掘的主要步骤数据清理(消除噪声和删除不一致数据)数据集成(多种数据源可以组合在一起)数据选择(从数据库种提取与分析任务相关的数据)数据
变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式,就是进行数据格式转化)数据挖掘(基本步骤,使用智能方法提取数据模式)
模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)注:前四步骤
是为数据挖掘准备挖掘的数据类型从数据类型上分,可以分为结构化数据、半结构化数据、非结构化数据从数据存储上分,可以分为关系型数据库数
据、数据仓库数据注意:(1)关系型数据库数据每条数据(数据库表中的每一行)都是一个事务,一个事务代表了一个完整的事件、对像。通常关
系型数据库表回通过关联其它表来完善事务的信息。(2)数据仓库是一个从多个数据源收集的信息存储库,数据仓库又称为数据立方体的多维数据
结构模式。从上图可以看出数据仓库是从多个数据源获取数据的,是多个数据源中事务的汇总。但这个汇总并不是说将全部数据源的细节数据放到一
起,而是指类似通过count()函数将各数据源事务数据进行计算处理然后装入数据仓库中。上图就是数据仓库的模式结构(数据立方体的多
维数据结构)。关系型数据库表是二维表,而数据仓库是多维表,这个主要体现在存储数据上。上图中横坐标“电话”、纵坐标“城市”、竖坐标“
季度”构成了数据仓库的三个维度。而400表示的是温哥华总销售额(体现数据仓库存的是汇总数据,而不是直接把温哥华数据源数据直接导入数
据仓库中)。400就是数据仓库所存的一个值。数据挖掘常见的困难可伸缩:数据挖掘算法要处理海量数据集,则算法必须是可伸缩的。(就是算
法在处理各种规模的数据时都有很好的性能。随着数据的增大,效率不会下降很快。)高维性:针对一个数据集合可能具有成百上千个属性,为低维
度数据开发的传统的数据分析技术通常不能很好地处理这样的高维度数据。此外对于某些数据分析算法,随着维度的增加,计算复杂性迅速增加(如
关联规则)异种数据和复杂数据:数据的所有权与分布:有时需要分析的数据并非存放在一个站点,或归属一个机构,而是地理上分布在属于多个机
构的资源中。这就需要开发分布式数据挖掘技术。分布式开发主要面临的挑战(1)如何降低分布式计算所需要的通信量(2)如何有效统一从多个
资源得到的数据挖掘结果(3)如何处理数据安全性问题。非传统的分析:传统的统计方法式“假设检验”,但这一过程十分复杂,我们需要根据数
据挖掘技术使其自动的进行评估假设。同时数据挖掘所面对的数据集通常是时机性的而不适随机性的。4数据挖掘与其它领域学科的关系5、数
据挖掘任务数据挖掘主要任务有两个:1)预测任务2)描述任务预测任务:就是根据其它属性值来预测指定属性的值。其中被预测的属性称为因变
量(目标变量),用来做预测的属性被称为自变量(说明变量)描述任务:导出概括数据种潜在联系的模式(相关、趋势、聚类、轨迹和异常)。描
述性数据挖掘任务通常式探查性的,并且常常需要后处理技术验证和解释结果。预测建模以根据花瓣长度对鸳尾花进行分类为例:根据分类,
就可以将鸢尾花分成了三类。2关联分析用来发现描述数据中强关联特征的模式,所发现的模式通常用蕴涵规则或特征子集的形式表示。以购物篮
为例:3聚类分析旨在发现紧密相关的观测值组群,使得与属于不同族的观测值相比,属于同一族的观测值互相之间尽可能相似。聚类可用来对
相关的顾客分组。以文档聚类为例:上图中的数字表示对应主体词出现的次数,文档聚类就是根据主体词的性质进行聚类,进而相似主题词为同一
类型的文章。异常检测异常检测的任务是识别其特征显著不同于其它数据的观测值,这样的观测值称为异常点或离群点。例如:信用卡欺诈检测
献花(0)
+1
(本文系实习生101首藏)