需要明确的问题 1、相似性度量,如:欧氏距离等 2、紧邻点个数,通过交叉验证得到最优紧邻点个数 kNN优缺点 1、优点 ① 算法简单直观、易于实现 ② 不需要额外的数据、只依靠数据(样本)本身 2、缺点 ① 计算量较大、分类速度慢 ② 需要预先制定k值 模型选择 分类、回归、聚类、其他 训练模型 Estimator对象 从训练数据学习得到的 可以是分类算法、回归算法或者是特征提取算法 fit方法用于训练Estimator Estimator的参数可以训练前初始化,或者之后更新 get_params()返回之前定义的参数 score()对Estimator进行评分 回归模型:使用“决定系数”评分 分类模型:使用“准确率”评分 测试模型 model.predict(X_test) 返回测试样本的预测标签 model.score(X_test,y_test) 根据预测值和真实值计算评分 |
|