《机器学习》学习笔记2

第二章的学习

2.2评估方法

2.2.1 留出法

“留出法” (hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=SUT，S∩T=ø，在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计

2.2.2 交叉验证法

“交叉验证法” (cross validation)先将数据集D划分为k个大小相似的互斥子集，即D = D1 U D2 U… U Dk, Di n Dj = ø (í ≠ j ) 。每个子集Di 都尽可能保持数据分布的一致性，即从D中通过分层采样得到. 然后，每次用k-1个子集的并集作为训练集；余下的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值

TIM截图20181015150942

2.2.3 自助法(Bootstrapping)

“自助法” (bootstrapping)是一个比较好的解决方案，它直接以自助采样法(bootstrap sampling) 为基础[Efron and ibshirani, 1993]. 给定包含m个样本的数据集D ，我们对它进行采样产生数据集D’: 每次随机从D中挑选一个样本，将其拷贝放入D‘中，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’，这就是自助采样的结果。显然，D中有一部分样本会在D’中多次出现，而另一部分样本不出现，可以做一个简单的估计，样本在m次采样中始终不被采到的概率是(1一1/m)^m ，取极限得到：

TIM截图20181015151636

即通过自助来样，初始数据集D 中约有36.8%的样本未出现在采样数据集D’中.于是我们可将D’ 用作训练集，D\D’ 用作测试集;这样，实际评估的模型与期望评估的模型都使用m个训练样本，而我们仍有数据总量约1/3的、没在训练集中出现的样本用于测试。这样的测试结果，亦称”包外估计” (out-of-bagestimate).

2.2.4 调参与最终模型

参数设定范围和范围内的步长，得出需要评估的候选参数值，最终评估性能得出选定值

可以用验证集进行模型的评估和选择，从而调整超参数

2.3 性能度量（performance measure）

TIM截图20181015152600

2.3.1 错误率和精度

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。对样例集D，分类错误率定义为

TIM截图20181015153119

2.3.2 查准率（precision）、查全率（recall）与F1

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例(false positive) 、真反倒(true negative) 、假反例(false negative) 四种情形，令TP 、FP 、TN 、FN 分别表示其对应的样例数，则显然有TP+FP+TN+FN=样例总数.分类结果的”泪淆矩阵” (co时usion matrix) 如表2.1 所示

TIM截图20181015153716

查准率和查全率是一对矛盾的度量.一般来说，查准率高时，查全率往往偏低;而查全率高时，查准率往往偏低

在很多情形札我们可根据学习器的预测结果对样例进行排序，排在前面的是学习器认为”最可能”是正例的样本?排在最后的则是学习器认为”最不可能”是正例的样本，按此顺序逐个把样本作为正例进行预测（如将每个样例的置信度作为区分正负的阈值，依次移动并划分），则每次可以计算出当前的查全率、查准率以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称” P-R 曲线”显示该曲线的图称为” P-R图” 图2 .3 给出了一个示意图

TIM截图20181015154156

若如曲线B将曲线C完全包住，则可断言前者的性能优于后者，而如果发生了交叉，则需要具体比较，如比较PR曲线下面积的大小，在一定程度上表征了学习在查准率和查全率取得”双高“的比例，但这个值不太容易估算，因此人们设计了一些综合考虑查准率、查全率的性能度量.

“平衡点” (Break-Event Point，简称BEP)就是这样一个度量，它是” 查准率=查全率”时的取值，但BEP还是过于简化了些，更常用的是F1度量：

TIM截图20181016164331

在一些应用中，对查准率和查全率的重视程度有所不同.例如在商品推荐系统中，为了尽可能少打扰用户，更希望推荐内容确是用户感兴趣的，此时查准率更重要;而在逃犯信息检索系统中，更希望尽可能少漏掉逃犯，此时查全率更重要. F1 度量的一般形式—Fß’ 能让我们表达出对查准率/查全率的不同偏好，它定义为

TIM截图20181017094742

TIM截图20181017094805

其中ß>0度量了查全率对查准率的相对重要性[Van Rijsbergen, 1979]. ß = 1时退化为标准的F1; ß> 1 时查全率有更大影响; ß < 1 时查准率有更大影响.

2.3.3 ROC(Receiver Operating Characteristic)与AUC(Area Under ROC Curve)

我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图就得到了”ROC曲线“，与P-R曲线使用查准率、查全率为纵、横轴不同，ROC曲线的纵轴是”真正例率” (True Positive Rate，简称TPR) ，横轴是”假正例率” (False PositiveRate，简称FPR) ，基于表2.1 中的符号，两者分别定义为

TIM截图20181017095508

TIM截图20181017142230

2.3.4 代价敏感错误率和代价曲线

非均等代价（Unequal cost）

代价曲线的绘制很简单: ROC 由线上每…点对应了代价平面上的二条线段7 设ROC 曲线上点的坐标为(TPR， FPR) ，则可相应计算出FNR，然后在代价平面上绘制一条从(O ， FPR) 到(l ， FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价;如此将ROC 曲线土的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的自积即为在所有条件下学习器的期望总体代价，