考点选择题,判断题,问答题。 比如数据挖掘研究方向;有哪些算法,各有什么优缺点 7个算法 聚类:K均值,层次化聚类,基于密度 分类:决策树,最近邻,贝叶斯 关联规则: Apriori 算法 大题 7个算法中的几个,会写伪代码,比如K均值的 计算:朴素贝叶斯,apriori,层次化代码 其他 相似性度量,几个公式(根据给出的样本点计算出相似度) 欧几里得距离,余弦相似度,Jaccard(Page 41、45)
1.选择题 2.判断题 3.问答题:分类、典型算法、研究方向、过程步骤、分析方法 第一、k均值,自底向上,精同方法?,城市算法 4种聚类 第二、决策树 。。。 3种分类,会写伪代码 第三 一维、二维 算法,apolgy算法 (关联规则) 大题 第四、相似醒度量 计算题? 数据挖掘的概念什么是数据挖掘: 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。 数据挖掘是数据库中知识发现(knowlegde discovery in database,KDD)不可缺少的一部分,而KDD是将来未加工的数据转换为有用信息的整个过程。 数据预处理()的目的是将来未加工的输入数据转换成适合分析的形式,其步骤包括融合来自多个数据源的数据,清洗数据以消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。 数据挖掘要解决的问题: 可伸缩;高维性;异种数据和复杂数据;数据的所有权与分布;非传统的分析; 数据挖掘任务(研究方向??),其有两大类: n 预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值,。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称说明变量(explanatory)或自变量(independent variable)。 n 描述任务。其目标是导出概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘人通常是探查性的,并且常常需要后处理技术验证和解释结果。 n 预测建模涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于誉城连续的目标变量。 关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。 聚类分析旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类型。 异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。 相似性度量欧几里得距离相似度 分类决策树决策树是一种由结点和有向边组成的层次结构。树中包含三种结点: l 根结点,它没有入边,但有零条或者多条出边。 l 内部结点,恰有一条入边和两条或多条出边 l 叶结点或者终结点,恰有一条入边,但没有出边 在决策树中每个叶结点都赋予一个类标号,非终结点包含属性测试条件,用于飞开具有不同特征的记录 建立决策树算在Hunt算法中,通过将训练记录相继划分成较纯的子集,以递归方式建立决策树。设Dt是与结点t相关联的训练记录集,而y={y1,y2,…yc}是类标号,Hunt算法的递归定义如下。 (1) 如果Dt中所有记录都属于同一个类yt,则t是叶结点,用yt标记 (2) 如果Dt中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集,对于测试条件的每个输出,创建一个子女结点,并根据测试结果将Dt中的记录分布到子女结点中。然后,对于每个子女结点,递归地调用用该算法。 表示属性测试条件的方法: 决策树归纳算法决策树归纳的特点:决策树的优缺点:
优点:1)可以生成可以理解的规则。 2)计算量相对来说不是很大。 3)可以处理多种数据类型。 4)决策树可以清晰的显示哪些字段较重要。 缺点:1)对连续性的字段比较难预测。 2)有时间顺序的数据,要很多预处理工作。 3)当类别太多时,错误可能就会增加较快。 最近邻分类最近邻算法: 最近邻分类器的特征: 贝叶斯朴素贝叶斯分类器关联规则-Apriori算法聚类K均值K均值的优缺点层次化聚类层次聚类的优缺点基于密度基于密度的DBSCAN算法优缺点 |
|