机器学习干货篇：训练集、验证集和测试集

阮朝阳的图书馆 2021-05-28

展开全文

训练集、验证集、测试集，在机器学习领域为何存在三种不同的数据集概念？它们该如何区分？“交叉验证法”和三种数据集又有何关系？

为什么要划分三类数据集

对于机器学习建模，其大致流程可表述为：

(1) 首先对原数据作清洗，筛选，特征标记等处理工作。

(2) 然后使用处理后的数据来训练指定模型，并根据诊断情况来不断迭代训练模型。

(3) 最后将训练调整好的模型应用到真实的场景中。

图片来源于网络

为了使部署好的模型在真实的数据中具有良好的预测效果，就需要通过某一信号指标来了解模型的泛化误差（模型在真实环境中的误差），从而指导我们得到泛化能力更强的模型。

然而，出于机器学习大量数据和训练的特点，我们既不能直接将泛化误差作为了解模型泛化能力的信号，因为在部署环境和训练模型之间往复，代价很高；也不能使用模型对训练数据集的拟合程度来作为了解模型泛化能力的信号，因为获得的数据可能不干净，不具有较好的代表性。

因此，当训练有监督的机器学习模型时，通常我们需要将原数据集分割为两部分：训练集和测试集，从而使用训练集的数据来训练模型，模型在测试集上测试后，再用测试集上的误差近似模型在现实场景中的泛化误差。（关于有监督学习和无监督学习的关系，可查看小编以前写的推文“机器学习干货篇：监督学习和无监督学习”）

那么，有了训练集和测试集，我们为什么还需要验证集？在机器学习中，我们不仅需要作模型与模型之间类的比较，对于某一类模型内部，也要不断进行筛选，涉及到模型自身的评估以及超参数的调整，我们就需要从训练集中再次划分出验证集。

知识点补充

模型参数：参数属于模型内部的配置变量，它们通常在建模过程自动学习得出。如：线性回归或逻辑回归中的系数、支持向量机中的支持向量、神经网络中的权重。

模型超参数：超参数属于模型外部的配置变量，他们通常由研究员根据自身建模经验手动设定。如学习速率，迭代次数，层数、K近邻中的K值。

三类数据集之间的关系

关于三类数据集之间的关系，常常用一个不恰当的比喻来说明：

(1) 训练集相当于课后的练习题，用于日常的知识巩固。

(2) 验证集相当于周考，用来纠正和强化学到的知识。

(3) 测试集相当于期末考试，用来最终评估学习效果。

根据这个比喻中，我们可以明白以下几点：

（1）训练集在建模过程中会被大量经常使用，验证集用于对模型少量偶尔的调整，而测试集只作为最终模型的评价出现，因此训练集，验证集和测试集所需的数据量也是不一致的，在数据量不是特别大的情况下一般遵循6:2:2的划分比例。

（2）为了使模型“训练”效果能合理泛化至“测试”效果，从而推广应用至现实世界中，因此一般要求训练集，验证集和测试集数据分布近似。但需要注意，三个数据集所用数据是不同的。