本次笔记涉及单变量和多变量的ROC和PR曲线的绘制,AUC、最佳界值的确定以及两条ROC曲线间的比较,采用软件SPSS26。 真阳性率(TPR)=TP/(TP+FN):实际为阳性预测也为阳性的比例。也称灵敏度(Sensitivity)、召回率(Recall); 假阳性率(FPR)=FP/(FP+TN):实际为阴性但预测为阳性的比例; 真阴性率(TNR)=TN/(FP+TN):实际为阴性预测也为阴性的比例。也称为特异度(Specificity); 假阴性率(FNR)=FN/(TP+FN):实际为阳性但预测为阴性的比例; 准确率(ACC)=(TP+TN)/(TP+FP+FN+TN):预测正确的比例; 阳性预测值(PPV)=TP/(TP+FP):预测为阳性的结果中实际为阳性的比例。也称精准率(Precision); 阴性预测值(NPV)=TN/(FN+TN):预测为阴性的结果中实际为阴性的比例。 数据介绍可参见文献“A multiparameter panel method for outcome prediction following aneurysmal subarachnoid hemorrhage”[Intensive Care Med. 2010 Jan;36(1):107-15. ]。研究数据来自两个独立队列(一组28名和113名患者)的141名蛛网膜下腔出血(aSAH) 患者。 data(aSAH,package="pROC") write.csv(aSAH,file = "D:/Temp/aSAH.csv") 然后将数据导入到SPSS中即可。 Analyze>>Classify>>ROC Curve… 结果如下: 或 【2】多变量ROC曲线绘制 其实这个我们在二分类logistic回归中已经使用过。具体方法就是将结局变量作为因变量,考虑绘制ROC曲线的多个变量作为自变量建立二分类的logistic回归模型,并通过该模型获得预测概率。然后用结局变量和预测概率来绘制ROC曲线即可。 Analyze>>Regression>>Binary logistic… 具体操作如下: Analyze>>Classify>>ROC Curve… 注意在这里的状态变量变成了1哦。 【3】两条ROC曲线AUC间的比较:配对还是独立? 我们首先建立预测结局变量(outcome)的几条ROC曲线:①wfns;②s100b;③【2】中建立的ROC曲线;④通过logistic回归筛选变量的预测概率建立的ROC曲线。【2】中通过ENTER方法建立的logistic模型有很多变量是没有统计学意义的,通过Backward:LR可以获得只有wfns和ndka的简化模型,同【2】中一样保存预测概率,具体步骤略。 在绘制这4条ROC曲线时,需要首先将结局变量(outcome)的赋值改为Good=0,Poor=1,否则会导致ROC有的在对角线下方,有的在上方。 SPSS里面的ROC分析[ROC Analysis]过程可以实现比ROC曲线[ROC Curve]过程更多的功能,除了可以实现[ROC Curve]过程的各种功能外,还可以进行曲线的比较,绘制Precision-Recall曲线等。 将要检验的变量wfns、s100b、4变量模型预测值和2变量模型预测值放入检验变量框,状态变量选入结局变量outcome,状态变量值为1(赋值1为阳性,注意已将原值修改为Good=0,Poor=1),选中配对样本设计,在[显示]按钮中选中带对角线、标准误和置信区间。 结果如下,我们可以看到绘制的4条ROC曲线,曲线可以双击进行美化。 4条ROC的AUC信息如下:4条ROC曲线的AUC与AUC=0.5均存在统计学差异。但需要注意的是4条ROC的AUC的95%CI都有相互重叠的部分,提示4条曲线AUC之间统计学意义不明显。但此时四条曲线间应属于配对设计而不是独立设计,因此直接通过95CI%来判断应该不妥。 4条ROC曲线间的比较如下:wfns与s100b、4变量预测概率与s100b、2变量预测概率与s100b存在统计学差异。 结果表明,男性和女性间的S100β的ROC曲线下面积不存在统计学意义(Z=0.508,P=0.612)。注意男女AUC的95%CI存在重叠,这跟统计学检验结果是一致的。 【4】Precision-Recall曲线 ROC曲线假阳性率(FPR)为横坐标、真阳性率(TPR)为纵坐标绘制的曲线,ROC曲线越向左上角(0,1)突出,诊断或者拟合效果越好。而PR曲线是召回率(Recall,真阳性,查全率)为横坐标、精准率(Precision,阳性预测值,查准率)为纵坐标绘制的曲线,PR曲线越向右上角(1,1)突出,诊断或者拟合效果越好。但阳性和阴性样本差距不大时,ROC和PR的趋势类似,但当阴性和阳性样本比例差别较大时PRC更能反映分类的真实性。当观察到的数据样本高度偏斜时,Precision-Recall 曲线往往会提供更多信息,并为类分布中具有较大偏斜的数据提供 ROC 曲线的替代方案。 Analyze>>Classify>>ROC Analysis… 部分结果如下,其中模型质量用条形图显示,数据是AUC 的置信区间下限的值,如S100β在条形图中的是0.63,是S100β的AUC的95%CI的下限0.631。 END |
|
来自: Memo_Cleon > 《待分类》