机器学习笔记第二章 k最近邻分类算法

复杂网络621 2015-12-07

展开全文

首先使用电影类型的分类，讲解k-最近邻算法的思想。

主要把电影分为两类：动作类和爱情类。

k-最近邻算法采用测量不同特征值之间的举例方法进行分类。

优点：精度高、对异常值不敏感、无数据输入假定

缺点：计算复杂度高、空间复杂度高

适用数据范围：数值型和标称型。

（？？？？什么是标称型数据？？？）

k-近邻算法的一般流程

（1）收集数据：可以使用任何方法。

（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式。

（3）分析数据：可以使用任何方法。

（4）训练算法：此步骤不适用于k-近邻算法。

（5）测试算法：计算错误率。

（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定出入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理。

K-最近邻算法

（1）计算已知类别数据集中的点与当前点之间的距离；

（2）按照距离递增次序排序；

（3）选取与当前点距离最小的k个点；

（4）确定前k个点所在类别的出现频率；

（5）返回k个点出现频率最高的类别作为当前点的预测分类。

Python函数classify()

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：复杂网络621 > 《机器学习》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

复杂网络621

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换

机器学习笔记 第二章 k最近邻分类算法