论文笔记（一）. Identity mapping in Deep Residual Networks

Rainbow_Heaven 2017-10-18

展开全文

作者：Kaiming He，Xiaoyu Zhang，Shaoqing Ren ，and Jian Sun

Abstract

这篇文章是作者就上一篇论文：Deep Residual Learning for Image Recognition 的深入探讨和研究。此篇文章从理论和实验上论述了ResNet的有效性，分析了 ResNet 中加入的 Identity mapping 为什么比较好，为什么它能让梯度在网络中顺畅的传递而不会爆炸或消失。同时就ResNet1202出现的降质问题，提出了一个新的残差单元，进一步提高了残差网络的性能。（cifar10: 4.62%)
code:

Introduction

ResNet结构：H(x)=x+F(x)
这里写图片描述

作者提出了一个更通用的表达式：
这里写图片描述
原始的ResNet由于shortcut是恒等映射，所以h(x)=x
作者认为ResNet的性能很好主要是因为identity mapping的存在，为进一步提高网络的性能，应该关注”direct“ 路径，更多的引入identity mapping，同时保障信息在前向传播和反向传播过程的顺畅性。
核心思想是保证信息传播路径的“clean”来缓解优化问题。

本文提出了一种恒等映射：f(y)=y，及去掉原来的relu函数，是信息直接流向下一个残差block。
这里写图片描述
（虚线：训练实现：测试）
实验证明了该结构进一步提升了网络的性能。

Analysis

如果addition操作之后是恒等映射，则Residual network的数学表达变成：
这里写图片描述

L:任何深度 l:浅层深度

后向传播公式
这里写图片描述
公式表现为两个项之和，第一项直接通道，可以把深层的梯度传递到任意浅层，可以看出浅层的梯度很难为0，第二项为卷积通道，不可能一直为 -1，所以不管参数多小，梯度也不会消失。

恒等跨越连接的重要性

作者把原来的identity mapping改成线性映射，并分析其影响（h(x)=kx )
这里写图片描述

此网络的后向传播过程受λ控制，若λ>1，则第一项会非常大，因而会导致梯度爆炸；若λ<1，则第一项会非常小，甚至消失。反向传播的信号只能从第二项传递，但是其优化难度更大。综上，这个结构妨碍了信息的传播，恒等映射更好。