对于二分类问题,机器预测的和实际的还是会有所偏差,所以我们引入以下几个概念来评价分类器的优良。 首先有关TP、TN、FP、FN的概念。TP与TN都是机器(预测)分类分对了的情况,TP是预测为正类且预测正确,TN是预测为负类且预测正确。FP与FN都是机器(预测)分类分错了的情况,FP是把实际负类分类(预测)成了正类,而FN则是把实际正类分类(预测)成了负类。(T则代表分类正确,F代表分类错误;P代表全体类中实际正类,N代表全体类中实际负类。) 【举例】一个班里有男女生,我们来进行分类,把女生看成正类,男生看成是负类。我们可以用混淆矩阵来描述TP、TN、FP、FN。
明确这三个概念的英文名称: 精确率(Precision),准确率(Accuracy),召回率(Recall)。 1.准确率(Accuracy)。顾名思义,就是所有预测正确的(包括正类和负类)占总的的比例。 2.精确率(Precision),查准率。即正确预测为正类的占全部预测为正类的的比例。个人理解:在所有预测为正类中真正为正类的占所有预测为正类的的比例。 精确率是针对我们预测结果而言的,它表示的是预测为正类的样本中有多少是真正的正类样本。那么预测为正类就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP)。 3.召回率(Recall),查全率。即正确预测为正类的占全部实际为正类的的比例。个人理解:在所有预测为正类中真正为正类的占总体实际为正类的的比例。 召回率是针对我们原始样本而言的,它表示的是全体样本中的所有正类样本有多少被预测正确了。也有两种可能,一种是把正类预测为正类(TP),另一种就是把正类预测为负类(FN)。 对于精确率和召唤率,其实就是分母不同,一个分母是预测为正类的样本数,另一个是原始样本中所有的正类样本数。 精确率和召唤率的区别: 举例: 假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本。系统查找出50个正样本,其中只有40个是真正的正样本,计算上述各指标。
准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70% 为什么这样起名? 召回率 (Recall):该类样本有多少被找出来了(召回了多少)。 精确率 (Precision):你认为的该类样本,有多少猜对了(猜的精确性如何)。 |
|