二、机器学习基础9(交叉验证、混淆矩阵、ROC)

交叉验证的主要作用

为了得到更为稳健可靠的模型,对模型的泛化误差进行评估,得到模型泛化误差的近似值。当有多个模型可以选择时,我们通常选择“泛化误差”最小的模型。

交叉验证的方法有许多种,但是最常用的是:留一交叉验证、k 折交叉验证。

混淆矩阵

第一种混淆矩阵

第二种混淆矩阵

错误率及精度

错误率(Error Rate):分类错误的样本数占样本总数的比例。

精度(accuracy):分类正确的样本数占样本总数的比例。

查准率与查全率

将算法预测的结果分成四种情况:
1. 正确肯定(True Positive,TP):预测为真,实际为真
2. 正确否定(True Negative,TN):预测为假,实际为假
3. 错误肯定(False Positive,FP):预测为真,实际为假
4. 错误否定(False Negative,FN):预测为假,实际为真

查准率(Precision)=TP/(TP+FP)

查全率(Recall)=TP/(TP+FN)

 ROC 与  AUC

ROC 全称是“受试者工作特征”(Receiver Operating Characteristic)。
ROC 曲线的面积就是 AUC(Area Under the Curve)。
AUC 用于衡量“二分类问题”机器学习算法性能(泛化能力)。

ROC 曲线,通过将连续变量设定出多个不同的临界值,从而计算出一系列真正率和假正率,再以假正率为纵坐标、真正率为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在 ROC 曲线上,最靠近坐标图左上方的点为假正率和真正率均较高的临界值。

对于分类器,或者说分类算法,评价指标主要有 precision,recall,F-score。下图是一个ROC 曲线的示例。

ROC 曲线的横坐标为 false positive rate(FPR),纵坐标为 true positive rate(TPR)。其中

TPR=frac{TP}{TP+FP},FPR=frac{FP}{FP+TN}


 

 

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>