分享

数据挖觉

 小猪来了 2013-11-28

考点

选择题,判断题,问答题。 比如数据挖掘研究方向;有哪些算法,各有什么优缺点

 

7个算法

   聚类:K均值,层次化聚类,基于密度

   分类:决策树,最近邻,贝叶斯

   关联规则: Apriori 算法

大题

    7个算法中的几个,会写伪代码,比如K均值的

    计算:朴素贝叶斯,apriori,层次化代码

其他

    相似性度量,几个公式(根据给出的样本点计算出相似度)

欧几里得距离,余弦相似度,JaccardPage 4145


自己的:

1.选择题

2.判断题

3.问答题:分类、典型算法、研究方向、过程步骤、分析方法

 

第一、k均值,自底向上,精同方法?,城市算法  4种聚类

第二、决策树 。。。 3种分类,会写伪代码

第三 一维、二维 算法,apolgy算法 (关联规则)  大题

第四、相似醒度量 计算题?

数据挖掘的概念

什么是数据挖掘:

数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

       数据挖掘是数据库中知识发现(knowlegde discovery in database,KDD)不可缺少的一部分,而KDD是将来未加工的数据转换为有用信息的整个过程。

       数据预处理()的目的是将来未加工的输入数据转换成适合分析的形式,其步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。

 

数据挖掘要解决的问题:

       可伸缩;高维性;异种数据和复杂数据;数据的所有权与分布;非传统的分析;

数据挖掘任务(研究方向??),其有两大类:

n  预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值,。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称说明变量(explanatory)或自变量(independent variable)。

n  描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘人通常是探查性的,并且常常需要后处理技术验证和解释结果。

n 

预测建模涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于誉城连续的目标变量。

       关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。

       聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类型。

       异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。

相似性度量

欧几里得距离

相似度

分类

决策树

决策树是一种由结点和有向边组成的层次结构。树中包含三种结点:

l  根结点,它没有入边,但有零条或者多条出边。

l  内部结点,恰有一条入边和两条或多条出边

l  叶结点或者终结点,恰有一条入边,但没有出边

在决策树中每个叶结点都赋予一个类标号,非终结点包含属性测试条件,用于飞开具有不同特征的记录

建立决策树算

Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与结点t相关联的训练记录集,而y=y1y2…yc}是类标号,Hunt算法的递归定义如下。

(1)       如果Dt中所有记录都属于同一个类yt,则t是叶结点,用yt标记

(2)       如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集,对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中。然后,对于每个子女结点,递归地调用用该算法。

 

表示属性测试条件的方法:

决策树归纳算法

决策树归纳的特点:

决策树的优缺点:

优点:1)可以生成可以理解的规则。

          2)计算量相对来说不是很大。

          3)可以处理多种数据类型。

          4)决策树可以清晰的显示哪些字段较重要。

缺点:1)对连续性的字段比较难预测。

          2)有时间顺序的数据,要很多预处理工作。

          3)当类别太多时,错误可能就会增加较快。

 

最近邻分类

最近邻算法:

最近邻分类器的特征:

贝叶斯

朴素贝叶斯分类器

关联规则-Apriori算法

聚类

K均值

K均值的优缺点

层次化聚类

 

层次聚类的优缺点

基于密度

基于密度的DBSCAN算法优缺点

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多