本文是对B站视频“transformer从零详细解读”的笔记,视频:https://www.bilibili.com/video/BV1Di4y1c7Zm?p=1 一、概述TRM在做一个什么事情? transformer包含encoder和decoder encoder和decoder分别有六个 原论文中transformer模型结构 encoder包含以下三个部分: 二、位置编码encoder输入部分: 1. Embedding 2. 位置嵌入 为什么需要? 位置编码公式 将词向量和位置编码相加作为模型的输入
引申一下为什么位置嵌入会有用 但是这种相对位置信息会在注意力机制那里消失 三、多头注意力机制1. 注意力机制1.1 基本的注意力机制经典的注意力机制的图,颜色深的表示很受关注,浅的表示不怎么受关注。 1.2 在TRM中怎么操作原论文中注意力机制的计算公式: 从公式角度来看:拿上面的图片举例子 两个向量越相似,点乘结果越大。 再举个栗子 四、残差和layerNorm五、前馈神经网络来源:https://www./content-4-907751.html |
|