分享

评估分类器的性能:保持方法、交叉验证、自助法等

 南山zzz 2021-12-30

目录

一、保持(holdout)方法

二、随机二次抽样

三、交叉验证

四、自助(bootstrap)法


一、保持(holdout)方法

保持方法其实就是我们最经常用的,最普遍的方法。

将标记的数据分成两个不相交的集合,一部分作为训练集,一部分作为验证集。在数据集上训练我们的分类模型,在检验集上评估模型的性能。两个集合的划分比例通常根据专家判断,比如2:1,1:2等。

保持方法有众所周知的局限性:1、模型性能往往不如用全部被被标记的样本都用于训练来得好;2、模型高度依赖于训练集构成。训练集越小,模型方差越大;训练集太大,则验证集就少了,那么话估计出来的准确率不太可靠。3、训练集和检验集不是独立的关系,因为这两个子集来源于同一个数据集,在一个子集中超出比例的类在另一个子集就低于比例。

二、随机二次抽样

多次重复保持方法,以改进分类器性能的估计,即随机二次抽样(random subsampling)。

总准确率是每一次迭代模型的准确率的平均。

局限性:1、和保持方法一样,训练阶段也没有利用到尽可能多的数据。2、由于它没有控制每个数据用于训练和检验的次数,因此有些训练的数据使用的频率可能比其他高很多。这样模型的权重会朝被多次使用的训练子集那边偏倚。

三、交叉验证

交叉验证中,每个数据用于训练的次数相同,都是一次。

二折交叉验证:把数据集分为相同大小的2个子集,选择一个作为训练集,另一个作为检验集,然后交换两个集合的角色。总误差为对两次运行求和。

K折交叉验证:对二折的推广。把数据氛围k份,按上述思想重复k次,使得每份数据都用于训练、检验各一次。总误差是k次运行误差的和。

留一法:特殊情况下,K折交叉验证中的k=N,N是数据集大小,则为留一法。这个方法中,每个训练集有N-1,验证集就1个数据。这个方法需要重复N此,计算开销很大;每个检验集就1个数据,性能估计度量的方法偏高。

该方法优点是尽可能多地训练数据,此外,验证集之间是互斥的,有效覆盖了整个数据集。

四、自助(bootstrap)法

上面讲的所有方法都是基于不放回抽样。因此,单次的训练集和检验集都不包含重复的数据。在自助法中,训练数据采用有放回抽样,使得它等概率地再次被重新抽取。

大小为N的一个自助样本,一个数据被抽取的概率是1-(1-1/N)^N。当N充分大时,概率逼近1-e^-1 = 0.632。没有抽中的记录就成为检验集的一部分。

在检验集上得到自助样本准确率的一个估计\varepsilon_{i},重复b此抽样过程,产生b个样本。

通过组合每个自助样本的准确率(\varepsilon_{i})和由包含所有样本的训练集计算的准确率(acc.s)计算总准确率(acc.boot):

上式方法叫做.632自助法。这里对\varepsilon_{i}和acc.s分配了不同的权重,\varepsilon_{i}的权重即一个数据被抽取的平均概率0.632。

 

 

 

 

 

 

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多