ROC和PR的联系和选择-The relationship between ROC and PR curve

ROC曲线和PR曲线都是常用的性能评价指标，但是为什么有了其中一个还要有另一个呢？他们能表达出什么不同的信息吗，他们有什么联系和区别呢？什么时候用哪个呢？

为什么ROC曲线不受样本不均衡问题的影响

对于PR曲线，它是精确率（precision，简称P）和召回率（Recall，简称R）的关系曲线，计算式如下：

$P=\frac{TP}{TP+FP},R=\frac{TP}{TP+FN} (1)$

对于ROC曲线，它是“真正例率”(True Positive Rate, 简称TPR)，横轴是“假正例率”(False Positive Rate,简称FPR)的关系曲线，计算式如下：

$TPR=\frac{TP}{TP+FN},FPR=\frac{FP}{FP+TN}$

因为ROC曲线计算的TPR/FPR，真正例率和假正例率（1-特异性），只关注实际上的正例/负例的，不关注其他类别的变化

从公式(2)和表中可以看出，TPR考虑的是第一行，实际都是正例，FPR考虑的是第二行，实际都是负例。因此，在正负样本数量不均衡的时候，比如负样本的数量增加到原来的10倍，那TPR不受影响，FPR的各项也是成比例的增加，并不会有太大的变化。因此，在样本不均衡的情况下，同样ROC曲线仍然能较好地评价分类器的性能，这是ROC的一个优良特性，也是为什么一般ROC曲线使用更多的原因。

而看公式(1)和表，精确率P考虑的是第一列，实际中包括正例和负例，因此，正负样本数量的变化会引起该值的变化，进而影响PR曲线对分类器的评价。

那么对样本不均衡不敏感就一定好吗？

如果对样本不均衡不敏感，体现的是指标的robust，但恰恰有可能因为指标的robust使得我们看不见classifier的weakness

ROC曲线的缺点

上文提到ROC曲线的优点是不会随着类别分布的改变而改变，但这在某种程度上也是其缺点。因为负例N增加了很多，而曲线却没变，这等于产生了大量FP。像信息检索中如果主要关心正例的预测准确性的话，这就不可接受了。

在类别不平衡的背景下，负例的数目众多致使FPR的增长不明显，导致ROC曲线呈现一个过分乐观的效果估计。ROC曲线的横轴采用FPR，根据FPR = FPNFPN = FPFP+TNFPFP+TN，当负例N的数量远超正例P时，FP的大幅增长只能换来FPR的微小改变。结果是虽然大量负例被错判成正例，在ROC曲线上却无法直观地看出来。（当然也可以只分析ROC曲线左边一小段）

举个例子，假设一个数据集有正例20，负例10000，开始时有20个负例被错判，FPR=2020+9980=0.002FPR=2020+9980=0.002，接着又有20个负例错判，FPR2=4040+9960=0.004FPR2=4040+9960=0.004，在ROC曲线上这个变化是很细微的。而与此同时Precision则从原来的0.5下降到了0.33，在PR曲线上将会是一个大幅下降。

所以，

如果是balanced dataset，

ROC和PR曲线都可以

如果是imbalanced dataset，

如果是正例少，负例多：

如果在乎正例的准确率，同时在乎负例的准确率，

比如识别出一千张图像中的猫和狗，就用ROC曲线

如果只在乎正例的准确率，不care true negative，

比如识别出一千张图像中的癌症和非癌症，就用PR曲线

如果是正例多，负例少：

就用ROC，直观，简单

Wu's Blog