数据挖觉

小猪来了 2013-11-28

展开全文

考点

选择题，判断题，问答题。比如数据挖掘研究方向；有哪些算法，各有什么优缺点

7个算法

聚类：K均值，层次化聚类，基于密度

分类：决策树，最近邻，贝叶斯

关联规则: Apriori 算法

大题

7个算法中的几个，会写伪代码，比如K均值的

计算：朴素贝叶斯，apriori，层次化代码

其他

相似性度量，几个公式（根据给出的样本点计算出相似度）

欧几里得距离，余弦相似度，Jaccard（Page 41、45）

自己的：

1.选择题

2.判断题

3.问答题：分类、典型算法、研究方向、过程步骤、分析方法

第一、k均值，自底向上，精同方法？，城市算法 4种聚类

第二、决策树。。。 3种分类，会写伪代码

第三一维、二维算法，apolgy算法（关联规则）大题

第四、相似醒度量计算题？

数据挖掘的概念

什么是数据挖掘：

数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。

数据挖掘是数据库中知识发现（knowlegde discovery in database,KDD）不可缺少的一部分，而KDD是将来未加工的数据转换为有用信息的整个过程。

数据预处理（）的目的是将来未加工的输入数据转换成适合分析的形式，其步骤包括融合来自多个数据源的数据，清洗数据以消除噪声和重复的观测值，选择与当前数据挖掘任务相关的记录和特征。

数据挖掘要解决的问题：

可伸缩；高维性；异种数据和复杂数据；数据的所有权与分布；非传统的分析；

数据挖掘任务（研究方向？？），其有两大类：

n 预测任务。这些任务的目标是根据其他属性的值，预测特定属性的值，。被预测的属性一般称为目标变量（target variable）或因变量（dependent variable），而用来做预测的属性称说明变量（explanatory）或自变量（independent variable）。

n 描述任务。其目标是导出概括数据中潜在联系的模式（相关、趋势、聚类、轨迹和异常）。本质上，描述性数据挖掘人通常是探查性的，并且常常需要后处理技术验证和解释结果。

预测建模涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务：分类，用于预测离散的目标变量；回归，用于誉城连续的目标变量。

关联分析用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。

聚类分析旨在发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类型。

异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。

相似性度量

欧几里得距离

相似度

关联规则-Apriori算法

聚类

K均值

K均值的优缺点

层次化聚类

层次聚类的优缺点

基于密度

基于密度的DBSCAN算法优缺点

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：小猪来了 > 《服务计算》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

小猪来了

关注对话

TA的最新馆藏

[转] 淘宝客API 老用户升级公告|联盟通告
Oracle 删除重复数据只留一条
javaWEB解决表单重复提交的问题（原理）
深入理解Java：注解（Annotation）自定义注解入门
UML类图几种关系的总结
[转] 数据库缓存

喜欢该文的人也喜欢更多

热门阅读换一换

数据挖觉

考点

数据挖掘的概念

相似性度量

欧几里得距离

分类

决策树

建立决策树算

决策树归纳算法

决策树归纳的特点：

决策树的优缺点：

最近邻分类

贝叶斯

朴素贝叶斯分类器