首先使用电影类型的分类,讲解k-最近邻算法的思想。 主要把电影分为两类:动作类和爱情类。 k-最近邻算法采用测量不同特征值之间的举例方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据范围:数值型和标称型。 (????什么是标称型数据???) k-近邻算法的一般流程 (1)收集数据:可以使用任何方法。 (2)准备数据:距离计算所需要的数值,最好是结构化的数据格式。 (3)分析数据:可以使用任何方法。 (4)训练算法:此步骤不适用于k-近邻算法。 (5)测试算法:计算错误率。 (6)使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定出入数据分别属于哪个分类,最后应用对计算出的分类执行后续的处理。 K-最近邻算法 (1)计算已知类别数据集中的点与当前点之间的距离; (2)按照距离递增次序排序; (3)选取与当前点距离最小的k个点; (4)确定前k个点所在类别的出现频率; (5)返回k个点出现频率最高的类别作为当前点的预测分类。 Python函数classify() |
|