抛开卷积，多头自注意力能够表达任何卷积操作

taotao_2016 2020-02-19

展开全文

本文来源于公众号：晓飞的算法工程笔记

近年来很多研究将NLP中的attention机制融入到视觉的研究中，得到很不错的结果。这篇发表于 ICLR 2020 的论文侧重于从理论和实验去验证self-attention可以代替卷积网络独立进行类似卷积的操作，给self-attention在图像领域的应用奠定基础。

论文地址：https:///abs/1911.03584

论文代码：https://github.com/epfml/attention-cnn

Transformer的提出对NLP领域的研究有很大的促进作用，这主要得益于attention机制，特别是自注意力（self-attention），它会考虑词间的相似性，对当前词进行加权输出。受到词间关系学习的启发，自注意力也开始用于视觉任务中，但大都是注意力和卷积的结合。Ramachandran 在2019年的研究中，用完全注意力模型（full attention model）达到了ResNet baseline的精度，模型参数和计算量相比卷积网络减轻了不少。

这篇论文主要研究自注意力层在图片处理上是否能达到卷积层的效果。贡献有两点：

在理论层面，论文通过构造性证明自注意力层能够替代任何卷积层。

在实际层面，论文通过构造多头自注意力曾进行实验，证明attention-only架构的前几层的确学习到了关注query pixel附近的 g网格区域特征。

背景

多头自注意力层

定义

为输入矩阵，包含

个

维的token，在NLP中，token对应着序列化的词，同样地也可以对应序列化的像素

自注意力层从

到

的计算如公式1, 2所示，

为attention scores，softmax将score转换为注意力概率，该层的参数包含查询矩阵(query matrix)

，关键词矩阵(key matrix)

，值矩阵(value matrix)

，都用于对输入进行变化，基本跟NLP中的自注意力一致：

因为只考虑相关性，自注意力一个很重要的属性是，不管输入的顺序如何改变，输出都是不变的，这对于希望顺序对结果有影响的case影响很大，因此在自注意力基础上为每个token学习一个positional encoding参数，

为包含位置信息的嵌入向量，可以有多种形式。

这里采用multiple heads版本的自注意力，每个head的参数矩阵都不一样，能够提取不同的特征，

个head输出

维结果concat后映射成

维的最终输出，两个新参数，映射矩阵(projection matrix)

，偏置

。

图注意力

卷积是最适合神经网络的图片操作方法，给予图片

，卷积在

的操作如公式5，

，

，K为卷积核的大小。

在图片上应用自注意力，定义查询像素和关键词像素

，

输入的向量大小为

为了保持一致性，用1D的符号来代表2D坐标，比如

，用

代表

，用

代表

。

图位置编码

位置编码目前主要有两种，分别是绝对位置(absolute)编码和相对(relative)位置编码。

在绝对位置编码中，每个像素拥有一个位置向量

(学习的或固定的)，于是公式2可以转换为公式（7）。

相对位置编码的核心是只考虑查询像素和查询像素之间的位置差异，如公式（8），大体是将公式（7）的每一项的绝对位参数改为相对位置参数。attention scores只跟偏移

，

和

是learnable参数，每个head都不一样，而每个偏移的相对位置编码

是head共享的。关键词权重分成了两部分，

属于输入，

属于偏移。

公式（9）称为二次编码(quadratic encoding)，参数

和

分别代表中心点以及attention区域的大小，都是通过学习得来的，而

则是固定的，代表查询像素和关键词像素的相对位移。

作为卷积层的自注意力

定理1：对于多头自注意力，个head，每个head输出维，整体最终输出，相对位置编码维，可以表示任何卷积，核大小为，output channel为。

对于output channel不是固定

，论文认为当

时，

相当于一个升维操作，这个操作的特征提取不能代表原始卷积的属性，实际中，一般采用

，这里是我的个人理解，可能有错误。小于

时，

相当于一个升维操作，这个操作的特征提取不能代表原始卷积的属性，实际中，一般采用

。

上面的定理表明，在选择适当的参数后，多头自注意力层可以表现得跟卷积层一样，每个head 的 attention score 关注不同偏移距离的像素，偏移值分别在集合

内，这样整体就类似于

核，如图1所示。

卷积神经网络不止卷积核大小这个超参，还有很多其它超参，这里论文对输出的数值的一致性上进行了解释：

Padding：多头自注意力层默认使用'SAME'的填充模式，而卷积层会减小K-1个像素的图片大小，因此，为了减少边界影响，可以对卷积图片进行的零填充；

Stride：卷积神经网络的步长可以认为是在卷积后面加入一个pooling操作，而定理 1 默认步长为1，但可以在后面接个pooling达到相同的结果；

Dilation: 因为多头自注意力可以设置任意的偏移值，因此也可以代表空洞卷积。

实验

实验的主要目的在于验证自注意力进行类似卷积的操作，以及自注意力在实际中是否学习到了类似卷积的属性，包含 3 种类似的注意力，分别为quadratic embedding，learned embedding和learnded embedding + content，具体可以看作者开源代码的attention score计算部分。

根据作者的解答，前两种都对应于代码的第一种注释，区别在前者按照公式9来计算

，后者则是完全随机学习来的，最后一种则对应注释的第三种。