roc什么意思中文翻译


机器学习专题之第 18 篇:深入理解 ROC 和 AUC

在上一篇文章中,我们介绍了机器学习评估指标的基础概念,包括 TP、FP、FN 和 TN。本文将深入探讨其他几个重要的评估指标:混淆矩阵、ROC 和 AUC。

混淆矩阵
混淆矩阵是一种表格形式的展示,列出了上述四个值,以便于分析预测结果。其中 T 表示“真正”,代表正确预测;F 表示“假”,代表错误预测;P 和 N 分别表示“阳性”和“阴性”,即两个不同的类别。

混淆矩阵对于二分类任务非常有用。例如,假设某个模型的混淆矩阵如下所示:

roc什么意思中文翻译

从该混淆矩阵中,我们可以看出预测错误主要集中在“假阴性”这一格,即模型将大量阳性样本预测为阴性。这表明模型的阈值可能偏高,可以通过降低阈值来提高召回率。

ROC 曲线
ROC 曲线(接收者操作特征曲线是一种曲线,用于显示分类器在不同阈值下的性能。其横轴表示假阳率(FPR,纵轴表示真阳率(TPR。

真阳率是阳性样本中被正确预测为阳性的比例。假阳率是阴性样本中被错误预测为阳性的比例。

roc什么意思中文翻译

roc什么意思中文翻译

一般来说,ROC 曲线越接近左上角,分类器的性能越好。左上角表示既没有假阴性(所有阳性样本都正确预测为阳性,也没有假阳性(所有阴性样本都正确预测为阴性。

AUC
AUC(曲线下面积是 ROC 曲线下的面积,用于度量分类器的整体性能。AUC 值介于 0 到 1 之间,AUC 越大,分类器性能越好。
计算方法
ROC 曲线的计算方法是:
1. 计算不同阈值下的混淆矩阵;
2. 根据混淆矩阵计算真阳率和假阳率;
3. 将真阳率和假阳率绘制成曲线,即可得到 ROC 曲线;
4. 计算 ROC 曲线下的面积,即为 AUC 值。
示例
我们以一个示例说明 ROC 曲线的计算过程:

roc什么意思中文翻译

roc什么意思中文翻译

使用阈值 0.5,可以得到:
TPR = 3 / (3 + 2) = 0.6
FPR = 1 / (1 + 4) = 0.2
将该点绘制到 ROC 曲线上,得到如下结果:

roc什么意思中文翻译

深入理解 AUC 和 ROC 曲线

roc什么意思中文翻译

机器学习模型预测结果通常是一个浮点值而非直接的类别标签。我们需要设定阈值将浮点值转换为类别预测。不同的阈值会产生不同的混淆矩阵,进而影响 TPR(真正例率和 FPR(假正例率的计算。
以下示例展示了不同阈值对混淆矩阵、TPR 和 FPR 的影响:
阈值 = 0.5:

roc什么意思中文翻译

TPR = 0.8,FPR = 0.4
阈值 = 0.2 (放宽阈值):

roc什么意思中文翻译

TPR = 1.0,FPR = 0.6
可以看出,降低阈值可以提升 TPR (召回更多正例),但同时也会增加 FPR (误判更多负例)。
将不同阈值下对应的 TPR 和 FPR 绘制成曲线,就得到了 ROC 曲线。样本量较少时,ROC 曲线可能呈现锯齿状:

roc什么意思中文翻译

随着样本量增加,曲线会变得更加平滑:

roc什么意思中文翻译

AUC (Area Under Curve) 指的是 ROC 曲线下方围成的面积。
- ROC 曲线是单调递增的,意味着 FPR 越高,TPR 也越高。这是因为更高的 FPR 代表模型将更多样本预测为正例,从而更容易捕捉到所有真正的正例。
- FPR=1 时,TPR 也等于 1,表示所有样本都被预测为正例,所有正例都被正确召回。
- FPR=0 对应的 TPR 越高,通常代表模型效果越好,因为它在不误判任何负例的情况下,仍然能识别出很多正例。

roc什么意思中文翻译

AUC 的值反映了模型区分正负样本的能力。 AUC 越大,说明在相同 FPR 的情况下,模型能识别出更多正例 (更高的 TPR)。
相比于仅仅比较某个特定阈值下的 TPR,AUC 能够更全面地反映模型的性能。 这是因为在某些情况下,不同模型的 ROC 曲线可能存在交叉,仅比较单点无法准确评估整体性能。

roc什么意思中文翻译

AUC 最低值不是 0,而是 0.5。 随机猜测模型的 ROC 曲线是一条对角线,其 AUC 为 0.5。

roc什么意思中文翻译

如果 AUC 小于 0.5,说明模型可能学习到了与真实情况相反的模式(负相关。 在这种情况下,可以尝试调换正负样本的标签,重新训练模型。

在先前论述中,我们阐明了机器学习部署场景中我们更重视正样本的现象。例如,在广告点击率预测、搜索排序、推荐等场景中,我们重点关注用户点击行为的发生和预测精准程度,而非未点击行为的预测正确性。在这些场景中,精确度或召回率并非至关重要,尤其是在涉及排序、位置调整的场景中,我们更在意模型能否为优质内容赋予更高的预测得分,使其排在前面,优先呈现给用户。AUC指数更能体现模型的效能。

在实际工业应用场景中,与精确度、准确度和召回率相比,我们倾向于更频繁地使用AUC指标。这并非意味着其他概念不具重要性,这主要取决于应用场景。既然应用场景决定了AUC指数的广泛适用性,那么在求职面试中,面试官询问AUC指数的可能性极高,特别是考察候选人基础能力时。如果遇到此类问题,仅仅理解其概念是不够的,我们还必须掌握其应用场景、前因后果,甚至能够对以往未曾考虑过的相关问题进行发散性思考。

希望各位有所收获,原创不易,恳请给予点赞和转发,让我们共同为提升自我而精益求精。