分享

用Python计算ROC曲线

 taotao_2016 2019-12-13

ROC曲线典型特征是Y轴为真阳性率,X轴为假阳性率。这意味着图的左上角是“理想”点——假阳性率为0,真阳性率为1。这不是很现实,但它确实意味着曲线下更大的区域通常更好。ROC曲线通常用于机器学习二元分类,用于研究机器学习分类器的输出。为了将ROC曲线和ROC面积扩展到多类或多标签分类,需要对输出进行binarize。每个标签可以绘制一条ROC曲线,但也可以通过将标签指标矩阵的每个元素作为二元预测来绘制ROC曲线。将输入样本的预测类概率计算为集合中分类器的加权平均预测类概率。使用Python我们可以导入SkLearn库。用户可以安装Anaconda for Python3并立即开始使用。

在我们的示例中,我们将使用机器学习Python库(scikit)检测是否检测到了类1或类2。在这个例子中,我们将使用支持向量机(SVM)分类器。请创建一个python文件并测试代码。首先,我们必须导入我们的库。

from sklearn.svm import SVCfrom sklearn.metrics import roc_curvefrom sklearn.metrics import aucimport matplotlib.pyplot as pltimport numpy as np

在将标签与.txt文件中的特征分离之后,我们必须创建多个列表。在我们的用例中,我们使用一个列表,然后将它转换成numpy数组。

#READ TRAINING AND TESTING FILEfeatureFile = input('Enter Training File: ')featureTestFile = input('Enter Test File: ')featureFile = open(featureFile, 'r')featureTestFile = open(featureTestFile, 'r') lines = featureFile.readlines() linesTest = featureTestFile.readlines() '''X: 2D All Features Split Into Columns in a list for trainingCF: 2D All Classes (1 or 2) in a list for trainingTestX: 2D All Features Split Into Columns in a list for testingTestCF: 2D All Classes Split Into Columns in a list for testing'''X, CF, TestCF, TestX = gatherFeatures(lines, linesTest) #NORMALIZE DATA AND RUN THROUGH SVM OBJECTrunClassifiers(X, TestX, TestCF, CF)

我们读取了所有标记为1或2的训练和测试数据。这是二元分类,对于多类项目将是类似的。一旦收集了特征,我们就可以通过分类器运行所有内容。我将跳过本文的特征收集,只讨论预处理和分析数据。

'''Pre Process Data and Create ROC Curve. ''' def runClassifiers(listX, listTestX, listTestCF, CF): #CLASS ARRAY, STORES ALL CLASSES cf = np.array(CF) cfTest = np.array(listTestCF) #Convert to Array X = np.array(listX) TestX = np.array(listTestX) # NORMALIZE DATA X = preprocessing.scale(X) TestX = preprocessing.scale(TestX) #SVM GATHER DATA rbf_svc = SVC(kernel='rbf', gamma=0.00001, C=1000,probability=True).fit(X, cf) #PREDICT PROBABILITY SCORE = 2D ARRAY FOR EACH PREDICTION predictedprobSVC = rbf_svc.predict_proba(TestX) #GET ROC DATA fpr, tpr, thresholds = roc_curve(cfTest, predictedprobSVC[:,1], pos_label=2) roc_auc = auc(fpr, tpr) #GRAPH DATA plt.figure() plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.plot([0, 1], [0, 1], color='navy', linestyle='--') plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.title('SVM Classifier ROC') plt.plot(fpr, tpr, color='blue', lw=2, label='SVM ROC area = %0.2f)' % roc_auc) plt.legend(loc='lower right') plt.show()

ROC曲线经常用于以图形方式显示,用于测试或测试组合的每个可能截止值。此外,ROC曲线下的面积给出了使用测试的好处。一旦这个类被运行,我们的ROC曲线图形将会显示,并且看起来像下面的图表。

用Python计算ROC曲线

我们可以看到不同的分类器是如何执行的,并对我们的分析进行扩展。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多