二、机器学习基础9(交叉验证、混淆矩阵、ROC)

admin • 2022-04-19 12:11 • 人工智能

交叉验证的主要作用

为了得到更为稳健可靠的模型，对模型的泛化误差进行评估，得到模型泛化误差的近似值。当有多个模型可以选择时，我们通常选择“泛化误差”最小的模型。

交叉验证的方法有许多种，但是最常用的是：留一交叉验证、k 折交叉验证。

混淆矩阵

错误率及精度

错误率（Error Rate）：分类错误的样本数占样本总数的比例。

精度（accuracy）：分类正确的样本数占样本总数的比例。

查准率与查全率

将算法预测的结果分成四种情况：
1. 正确肯定（True Positive,TP）：预测为真，实际为真
2. 正确否定（True Negative,TN）：预测为假，实际为假
3. 错误肯定（False Positive,FP）：预测为真，实际为假
4. 错误否定（False Negative,FN）：预测为假，实际为真

查准率（Precision）=TP/（TP+FP）

查全率（Recall）=TP/（TP+FN）

ROC 与 AUC

ROC 全称是“受试者工作特征”（Receiver Operating Characteristic）。
ROC 曲线的面积就是 AUC（Area Under the Curve）。
AUC 用于衡量“二分类问题”机器学习算法性能（泛化能力）。

ROC 曲线，通过将连续变量设定出多个不同的临界值，从而计算出一系列真正率和假正率，再以假正率为纵坐标、真正率为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在 ROC 曲线上，最靠近坐标图左上方的点为假正率和真正率均较高的临界值。

对于分类器，或者说分类算法，评价指标主要有 precision，recall，F-score。下图是一个ROC 曲线的示例。

ROC 曲线的横坐标为 false positive rate（FPR），纵坐标为 true positive rate（TPR）。其中

$TPR=frac{TP}{TP+FP},FPR=frac{FP}{FP+TN}$

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

机器学习深度学习

二维码

AI4DB:人工智能之慢SQL根因分析

< <上一篇

数学建模——房屋贷款问题——python实现

下一篇>>

搜索内容