分享

机器学习入门笔记(二)

 挑燈看劍r7wtm5 2019-07-28

要评估模型的好坏光有评估方法还不行,还得确定评估指标。评估指标就是衡量模型泛化能力好坏的评估标准,反映了任务需求;使用不同的评估指标往往会导致不同的评估结果。

机器学习入门笔记(二)

在分类预测任务中,给定测试样例集,评估分类模型的性能就是把每一个待测样本的分类结果和它的真实标记比较。因此,准确率和错误率是最常用的两种评估指标:

√ 准确率就是分对样本占测试样本总数的比例

√ 错误率就是分错样本占测试样本总数的比例

由于准确率和错误率将每个类看得同等重要,因此不适合用来分析类不平衡数据集。在类不平衡数据集中,正确分类稀有类比正确分类多数类更有意义。此时查准率和查全率比正确率和错误率更适合。对于二分类问题,稀有类样本通常记为正例,而多数类样本记为负例。统计真实标记和预测结果的组合可以得到如下所示的混淆矩阵:

机器学习入门笔记(二)

混淆矩阵

查准率(P)就是被分为正类的样本中实际为正类的样本比例:P=TP/(TP+FP)

查全率(R)就是实际为正类的样本中被分为正类的样本比例:P=TP/(TP+FN)

查准率和查全率之间通常是矛盾的,查准率高时,查全率往往偏低,反之亦然。因此为了综合考虑查准率和查全率,它们的调和均值F1度量被提出:

机器学习入门笔记(二)

很多分类器可以为测试样例产生一个概率预测,因此也可以根据预测的概率将测试样例进行排序,把最可能是正例的排在最前面,把最不可能的正例排在最后面。这样,分类过程就相当于在这个排序中以某个“截断点”将样本分为两部分,前一部分分为正例,后一部分分为反例。在不同的应用任务下,用户可以根据不同的任务需求来选择不同的截断点。因此,排序本身的质量好坏体现了分类器在不同任务下的泛化性能。

ROC(受试者工作特征)曲线,根据分类器的预测结果对样例排序,并按此顺序依次选择不同的“截断点”逐个把样例作为正例进行预测,每次计算出当前分类器的“真正率”和“假正率”,然后以它们为纵轴和横轴绘图,就可得到ROC曲线。

真正率(TPR)就是被分为正类的正样本比例:TPR=TP/(TP+FN)

假正率(FPR)就是被分为正类的负样本比例:FPR=FP/(FP+TN)

机器学习入门笔记(二)

若某个分类器的ROC曲线被另一个分类器的曲线“包住”,则后者性能优于前者;否则如果曲线交叉,可以根据ROC曲线下面积的大小进行比较,即AUC。

机器学习入门笔记(二)

AUC的计算:

机器学习入门笔记(二)

AUC度量了分类预测器样本排序的性能。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多