DL之Attention:Attention注意力机制的简介、应用领域之详细攻略 相关文章 Attention的简介注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息。上述机制通常被称为注意力机制。人类视网膜不同的部位具有不同程度的信息处理能力,即敏锐度(Acuity),只有视网膜中央凹部位具有最强的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后集中关注它。例如,人们在阅读时,通常只有少量要被读取的词会被关注和处理。综上,注意力机制主要有两个方面:决定需要关注输入的哪部分;分配有限的信息处理资源给重要的部分。 Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是2014年google mind团队的论文《Recurrent Models of Visual Attention》,他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是第一个将attention机制应用到NLP领域中。接着attention机制被广泛应用在基于RNN/CNN等神经网络模型的各种NLP任务中。2017年,google机器翻译团队发表的《Attention is all you need》中大量使用了自注意力(self-attention)机制来学习文本表示。 关于注意力机制的更多细节,可以参考原始论文《Neural Machine Translation by Jointly Learning to Align and Translate》。 以下主要转自知乎:目前主流的attention方法都有哪些? 1、Why Attention?根据通用近似定理,前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢?
可以借助人脑处理信息过载的方式,例如Attention机制可以提高神经网络处理信息的能力。 2、Attention机制的分类当用神经网络来处理大量的输入信息时,也可以借鉴人脑的注意力机制,只 选择一些关键的信息输入进行处理,来提高神经网络的效率。按照认知神经学中的注意力,可以总体上分为两类:
在人工神经网络中,注意力机制一般就特指聚焦式注意力。 3、Attention机制的计算流程 Attention机制的实质其实就是一个寻址(addressing)的过程,如上图所示:给定一个和任务相关的查询Query向量 q,通过计算与Key的注意力分布并附加在Value上,从而计算Attention Value。 注意力机制可以分为三步:一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。
4、Attention机制的变种与普通的Attention机制(上图左)相比,Attention机制常见的变种有:
5、吊炸天的Attention机制:为什么自注意力模型(self-Attention model)在长距离序列中如此强大?1、卷积或循环神经网络难道不能处理长距离序列吗? 当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列,如图所示 从上图可以看出,无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络,由于梯度消失等问题也只能建立短距离依赖。 2、要解决这种短距离依赖的“局部编码”问题,从而对输入序列建立长距离依赖关系,有哪些办法呢? 如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一 种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络。 ——《神经网络与深度学习》 3、自注意力模型(self-Attention model)具体的计算流程是怎样的呢? 同样,给出信息输入:用X = [x1, · · · , xN ]表示N 个输入信息;通过线性变换得到为查询向量序列,键向量序列和值向量序列, 公式可以看出,self-Attention中的Q是对自身(self)输入的变换,而在传统的Attention中,Q来自于外部。 注意力计算公式为: 自注意力模型(self-Attention model)中,通常使用缩放点积来作为注意力打分函数,输出向量序列可以写为 Attention的应用领域1、神经机器翻译注意力机制最成功的应用是机器翻译。基于神经网络的机器翻译模型也叫做神经机器翻译(Neural Machine Translation,NMT)。一般的神经机器翻译模型采用“编码-解码”的方式进行序列到序列的转换。这种方式有两个问题:
通过引入注意力机制,我们将源语言中每个位置的信息都保存下来。在解码过程中生成每一个目标语言的单词时,我们都通过注意力机制,直接从源语言的信息中选择相关的信息作为辅助。这样的方式就可以有效地解决上面的两个问题。
2、图像描述生成 图像描述生成是输入一幅图像,输出这幅图像对应的描述。图像描述生成也是采用“编码-解码”的方式进行。编码器为一个卷积网络,提取图像的高层特征,表示为一个编码向量;解码器为一个循环神经网络语言模型,初始输入为编码向量,生成图像的描述文本。 参考文章 |
|