通俗讲解从Transformer到BERT模型！

520jefferson 2020-08-25

展开全文

作者：陈锴，中山大学 张泽，华东师范大学

近两年来，Bert模型非常受欢迎，大部分人都知道Bert，但却不明白具体是什么。一句话概括来讲：BERT的出现，彻底改变了预训练产生词向量和下游具体NLP任务的关系，提出龙骨级的训练词向量概念。

想要了解Bert，那么可能你需要先从tranformer框架了解清楚。今天我们就从Transformer到Bert进行详细地讲解。

1. Attention

在学会 Transformer 和 Bert 之前，我们需要理解Attention和Self-Attention机制。Attention的本质是要找到输入的feature的权重分布，这个feature在某一个维度有一个长度的概念，如果我们输入一个长为 n 的 feature，那么 Attention 就要学习一个长为 n 的分布权重，这个权重是由相似度计算出来的，最后返回的得分就将会是权重与feature的加权和。

1.1 Attention的计算过程

Attention的输入是Q,K,V，返回的是一个socre，计算公式如下：

需要注意的是上述公式的下标位置，显然我们需要学习的权重分布是，而和相关，就是我们希望去被找到权重的feature。

1.1.1 QKV 英文名字的含义

Q 即为英文中 Query 是指：被查询的序列，可以看到在每次计算相似度的过程中，Q在计算中是一直保持着整体的状态。
K 即为英文中 Key 是指：被查询的索引，我们学习到的权重分布A 长度为n，那么A中每一个下标的大小，就代表了对应索引被分配到的权重。所以这个K，控制的是索引。
V 即为英文中的 Value 是指：值，也就是我们feature 本身的值，他要去和权重分布做加权和来得到最终的分布。

1.1.2 相似度的计算方式

这里相似度的计算方式有很多种:

相似度名	计算方式
点乘
矩阵乘积	，为参数
余弦相似度	$s(q,k)=\frac{q^Tk}{
concat	，为参数
mlp	，为参数

1.2 HAN中的Attention

我们首先看一下 HAN 的 Attention 中的QKV分别是如何体现的。

在 HAN 中，我们只有一个输入，输出为和的加权平均，所以即为 Attention 机制中的 Value。我们把做了一个线性变换变成了，然后又随机生成了一个向量 , 一起计算。公式为：

可以看到在公式中一直处于被查询的状态，即一直保持着一个整体的状态，所以我们生成的随机向量即为 Attention 机制中的Query 。而我们做完线性变换生成的U 给 A 生成不同索引的权重值，他即代表我们 Attention 机制中的 Key。这里用的相似度公式显然是点积，而在我自己实现的时候遇到了点困难，改成了MLP实现法。

1.3 seq2seq中的Attention

我们来看 seq2seq 中的 Attention 机制，在这个任务中我们需要一步一步的生成，我们会根据每一步生成的（实际是一个分布），找到对应的单词。

我们的生成公式为:

可以看出，每一次生成的时候都要被更新，而在这个模型中就是 Attention 模型最终被返回的得分。

在 seq2seq模型中，我们把输入Encoder 生成的值记为，我们需要学习关于的权重分布，所以即为这里 Value，而这里的 Key 也是他自己，他没有像 HAN 中一样做变换，我们每一次要查询的 Query 是已经生成的序列也即为 Decoder 中生成的值，显然随着每次生成的变化这个被查询的会变长。这样，由我们的就能生成出最后的。

2. Transformer

Transformer改进了RNN最被人诟病的训练慢的缺点，利用self-attention机制实现快速并行。

2.1 Self-Attention

在 Transformer 中我们要用到的 Attention 方式是 Self-Attention，它与之前的 Attention 有些许的不同。简单的来说，它通过学习三个参数，来对同一个embedding之后的feature 进行转换，将他线性转换成Q、K、V 之后计算出这句话的 Attention 得分。名字中的Self 体现的是所有的Q、K、V 都是由输入自己生成出来的。

归一化：权重分布在归一化前，要除以输入矩阵的第一维开根号，这会让梯度更稳定。这里也可以使用其它值，8只是默认值，再进行softmax。

返回：这里返回的值和输入的长度维度是一样的，每一个单词对应的输出是所有单词对于当前单词的权重分布与Value得分的加权和。所以他有多少个单词，就做了多少次Attention 得分，这就是self-Attention 。

2.2 模型结构

Transformer：Input(Embedding)→Encoder ×6 → Decoder×6 → output
Encoder：Multi-headed attention → Add&Norm → Feed Forward → Add&Norm
Decoder：Multi-headed attention → Add&Norm → Encoder-Decoder-Attention → Add&Norm → Feed Forward → Add&Norm
Multi-headed attention：Self-Attention×8

其中Encoder-Decoder-Attention即为seq2seq 中的Attention 结构，K和V 为Encoder顶层的output。

2.3 Multi-headed attention（多头怪）

Self-Attention 生成了一组，而多头怪生成了 8组，在实际的过程中，最后需要把这8组进行concat（拼接）。

需要注意的是 Decoder 端的多头 self-attention 需要做mask，因为它在预测时，是“看不到未来的序列的”，所以要将当前预测的单词(token)及其之后的单词(token)全部mask掉。使用多头机制可以理解为CNN中同时使用多个卷积核。

代码实现在pytorch中很简单，直接调包即可：第0维是长度，第一维是batchsize。

## nn.MultiheadAttention 输入第0维为lengthquery = torch.rand(12,64,300)key = torch.rand(10,64,300)value= torch.rand(10,64,300)multihead_attn = nn.MultiheadAttention(embed_dim, num_heads)multihead_attn(query, key, value)[0].shape# output: torch.Size([12, 64, 300])

可以考虑实现一个第0维是 batchsize 的 MultiheadAttention：

class MultiheadAttention(nn.Module):    def __init__(self, hid_dim, n_heads, dropout):        super(MultiheadAttention,self).__init__()        self.hid_dim = hid_dim        self.n_heads = n_heads
        assert hid_dim % n_heads == 0 # d_model // h 是要能整除        self.w_q = nn.Linear(hid_dim, hid_dim)        self.w_k = nn.Linear(hid_dim, hid_dim)        self.w_v = nn.Linear(hid_dim, hid_dim)        self.fc = nn.Linear(hid_dim, hid_dim)        self.do = nn.Dropout(dropout)        self.scale = torch.sqrt(torch.FloatTensor([hid_dim // n_heads]))
    def forward(self, query, key, value, mask=None):        bsz = query.shape[0]        Q = self.w_q(query)        K = self.w_k(key)        V = self.w_v(value)        Q = Q.view(bsz, -1, self.n_heads, self.hid_dim //                   self.n_heads).permute(0, 2, 1, 3)        K = K.view(bsz, -1, self.n_heads, self.hid_dim //                   self.n_heads).permute(0, 2, 1, 3)        V = V.view(bsz, -1, self.n_heads, self.hid_dim //                   self.n_heads).permute(0, 2, 1, 3)
        # Q, K相乘除以scale，这是计算scaled dot product attention的第一步        energy = torch.matmul(Q, K.permute(0, 1, 3, 2)) / self.scale
        # 如果没有mask，就生成一个        if mask is not None:            energy = energy.masked_fill(mask == 0, -1e10)
        # 然后对Q,K相乘的结果计算softmax加上dropout，这是计算scaled dot product attention的第二步：        attention = self.do(torch.softmax(energy, dim=-1))
        # 第三步，attention结果与V相乘        x = torch.matmul(attention, V)
        # 最后将多头排列好，就是multi-head attention的结果了        x = x.permute(0, 2, 1, 3).contiguous()        x = x.view(bsz, -1, self.n_heads * (self.hid_dim // self.n_heads))        x = self.fc(x)        return x

测试结果符合预期：

## 构造的 输入第0维为batchquery = torch.rand(64,12,300)key = torch.rand(64,10,300)value= torch.rand(64,10,300)tran=MultiheadAttention(hid_dim=300, n_heads=6, dropout=0.1)tran(query, key, value).shape## output: torch.Size([64, 12, 300])