Cumulative gains chart
原文--http://claudchen.blog.hexun.com/1769823_d.html
举一个例子在一千个样本中,有100个恐怖分子,要求我们建立分类模型,把这100个恐怖分子抓出来,并画出gains chart和lift chart。
先说X坐标:X坐标代表什么呢?X坐标代表我们样本的百分比。假设有1000个样本,横轴的10,代表100个,横轴的100代表1000。
再说Y坐标:Y坐标代表在X轴所代表的那么多样本中,判断正确的比率。
再说base line:什么是base line呢?如果我们不用模型,那么我们对每一个人的打分都是一样的,都是10%,那么我们可以知道在100个样本中,大概有10个恐怖分子,坐标为(10,10); 在200个样本中,大概有20个恐怖分子,坐标为(20,20);在1000个样本中,大概有100个恐怖分子,坐标为(100,100);把所有的点连成一条直线,就是base line。
最后是Lift Curve:
按照模型对所有样本有一个打分,实际上就是模型的输出。把样本按照得分从高向低排。 那么如果在得分最高的那10%(100个)的样本中有30%(30个)的恐怖分子,那么就在gains chart上画出(10,30)一点,把所有点都画在gains chart上就是Lift Curve。
lift chart X坐标的含义和gains chart一样。 Y坐标代表模型得到的恐怖分子数目比没有模型得到的恐怖分子数目。 比如在10%的样本中模型得到了30%的恐怖分子,而没有模型仅得到10%的恐怖分子,那么y坐标为30/10=3
|