【原】利用Group Conv在单个CNN中实现集成学习

我爱计算机视觉 2021-04-02

展开全文

论文：Group Ensemble: Learning an Ensemble of ConvNets in a single ConvNet
地址：https:///pdf/2007.00649.pdf

0. 动机

集成学习通过融合多个模型得到更准确的结果，在深度神经网络模型上应用集成学习可以提高网络性能。
通常来讲，在深度神经网络中使用的集成策略可以分为2类：

其一为显式的集成策略（explicit ensembling strategy）,训练多个模型，通过专家委员会（a committee of experts）或其他方法得到最终结果。由于需要使用多个神经网络模型，这种方法计算量比较大。
其二为隐式的集成策略（implicit ensembling strategy）,这种方法又能分为2类：

在单个模型中引入随机操作模仿集成，比如DropOut、DropConnect、DropBlock、StochDepth、Shake-Shake；
在单个模型中使用多条路径模仿集成，比如ResNet、ResNeXt、DenseNet、Inception系列。

作者提出了Group Ensemble方法，在单个模型中融合显式和隐式的集成方法，能够在几乎不提升原模型计算需求的基础上提高模型性能。

1. Group Ensemble

一些研究表明，对同一架构的网络使用不同方法（比如改变权重初始值、改变数据集的划分策略）训练多次，得到的多个网络中浅层的表达很类似；甚至不同的网络结构，比如VGG和ResNet系列网络，基于同一任务训练，得到的网络浅层表达也很类似。基于上述发现，作者认为，可以通过共享浅层网络、独立多个深层网络来达到显式集成的效果，以减少计算量。

作者提出了名为GENet（Group Ensemble Network）的网络结构，用于在单个神经网络中进行显示集成学习，如下图所示：

从上图中可以看出，作者使用Group卷积的形式达到“独立多个深层网络”的效果，每个分类器的输出结果融合得到最终结果。

多个独立的深层网络提供了用于集成学习的多个分类器，并且引入了多个分类器的差异性；共享浅层网络，相比于传统的使用多个模型集成的方法，有效地减少了计算量。多个独立的深层网络使用同一个浅层网络，因此共享的浅层网络也可以理解为对共享参数的一种正则化手段。

假设深层的Group卷积中共有n个组，整个模型的损失函数为：

上式中的表示第m个Group卷积的损失函数。

推理时，这些独立的深层网络分别输出各自的结果，通过取平均值得到整个网络的最终结果。

2. Aggregation Strategies

作者介绍了3种训练时给样本分配权重的方法，它们分别为Group Averaging、Group Wagging、Group Boosting，可以使用这些方法提高深层网络的多样性，达到更好的集成效果。

第m组的损失函数可以表示为：

上式中，i表示样本的索引，b 表示 batch size，表示第i个样本的损失，表示第i个样本对应的权重。下图说明了该公式的含义：

Group Averaging、Group Wagging、Group Boosting这3种方法决定了上式中的取值策略。

Group Averaging：所有的取值为1，不同组的多样性由它们的权重初始值、各自的损失和各自的反向传播决定。
Group Wagging：是服从均匀分布或者高斯分布的随机值，若服从高斯分布，表示为。随机选取能在样本层面增加不同组的多样性。
Group Boosting 当前组的取决于上一组对该样本的识别效果，当上一组对该样本识别错误时，在当前组中取较大值，即让当前组重点关注上一组识别错误的样本。为了在训练时就能得到某个组对样本的识别效果，作者使用了online boosting方法，定义在第m组中某个样本的权重为：