BERT学习

来自：职场细细品 > 馆藏分类

配色：

字号：大中小

BERT学习

2020-12-26 | 阅：转： | 分享

BERT2020-12-25演讲人01BERT是transformer的EncoderBERT是transformer的Encoder所以注
意位置BERT需要训练Encoder就好了，训练时候不需要LabelBERT，给句子，每个句子都会输出一个Embedding
encoder中self-attention字为单位训练更为格式因为词的数量级别太大，实际使用上会方便很多。02Transfo
rmerTransformergoogle在2017年发表的一篇论文《Attentionisallyouneed》03At
tention机制Attention机制什么是Attention011、深度学习中的注意力可以被广义的理解为表示重要性的权重向量。
022、为了预测或推断一个元素，例如图像中的像素或句子中的单词，我们使用注意力权重来估计其他元素与相关的强度，并将由注意力权重加
权的值的总和作为计算最终目标的特征。03Attention的步骤：1、计算其他元素与待预测元素的相关性权重。2、根据相关性权
重对其他元素进行加权求和。04常见问题可以作为面试题目常见问题可以作为面试题目3、bert如果有24层，可以抽取出24个vecto
r。bert的不同层抽取的vector作用不一样。2、中文的训练BERT的时候用词合适还是用字合适为什么1、bert和transf
ormer的关系：BERT是transformer的Encoder输入one-hotvector因为太长051、文字的特征提
取器1、文字的特征提取器1-of-NEncoding无法看出词和词的关系WordClass将动物、植物进行归类。Word
Embedding每个词汇用一个向量表示它，向量的某一个纬度表示了一个词的一些含义，相似的向量对应实例比较相似抽featu
re的方法已经广泛的应用的NLP的任务中来了。但是同一个词汇可能有不同的意思，过去的wordembedding是一模一样的，
但是同一个词语在不同上下文中会有细微的差异。总结：过去的embedding的方式，无法区分一词多义的问题、有些比较Cont
extualizedWordEmbedding基于上下文的词向量062、什么是ELMO2、什么是ELMOEmbeddin
gsfromlanguagemodel，是用来产生ContextualizedWordEmbedding的基于RNN-b
asedlanguagemodels，要训练一个RNNbased的models不需要label，训练任务的目的就是预测下一个
词。训练过程中就可以产生，当前token的embedding会根据前面的数据产出ContextualizedWordEmbed
ding不光考虑前向还要考虑后向的任务考虑deep任务的rnnELMO如何将deeprnn产出个各种embedding做融合。2、
什么是ELMOELMO进行加权的融合，权重是学习出来的，但是会根据不同的使用任务设置不同的权重。2、什么是ELMO不光考虑
前向还要考虑后向的任务beginofsentence2、什么是ELMO考虑deep任务的rnn产生了一个问题，如何选择合适的
embedding2、什么是ELMOELMO进行加权的融合，权重是学习出来的，但是会根据不同的使用任务设置不同的权重。d
ownstreamtasks指的是不同的embedding的任务。073、如何训练BERT1、maskedLM挖空15%pe
rcent的词汇。把mask部分，丢进去是linearmulticlassclassifier因为linear表征能力非常
弱，经过24层，所以BERT必须抽出一个非常好的repredicting3、如何训练BERT2、nextsentencepre
diction预测两个句子是否需要拼接在一起。CLS放在开头或者结尾影响不大，因为不是基于RNN的架构。[SEP]：thebo
undaryoftwosentences两个句子的边界[CLS]:thepositionthatoutputscl
assificationresults是一个分类的任务子主题3、如何训练BERT在论文中，approaches1and2
usedatthesametime3、如何训练BERTERNIE是针对中文设计的子主题084、如何使用BERT1、输入
句子，输出一个class（文章分类）014、如何使用BERT2、输入句子，输出每一个位置的分类。023、输入两个句子，输入一个分
类034、QueationAnswering，输入文章可以得到答案。04把BERT当做一种抽取feature的工具054、如何使
用BERT1、输入句子，输出一个class（文章分类）给出【CLS】分类的符号，和句子BERT的参数和LinearClassif
ier参数一起进行学习。LinearClassifier从头学、bert进行微调4、如何使用BERT2、输入句子，输出每一个位置
的分类。4、如何使用BERT子主题3、输入两个句子，输入一个分类输入前提和假设。让BERTBA4、如何使用BERT4、Quea
tionAnswering，输入文章可以得到答案。子主题训练需要准备问题、文章已经问题的答案在文章的第几个单词到第几个单词。09
5、GPT5、GPTGPT-2的参数量Zero-shotLearning最大模型的参与量1500Mreadingcompre
hension结果很好summarization结果很差translation结果很差10Self-Attentionl
ayer050403060102Self-AttentionlayerRNN和CNN的弊端RNN不能进行并行化CNN可以并行计算
，但是需要叠加很多层，才能看的懂依赖输入和输出和RNN是一样，input是一个seq，输出是一个seqself-attention
可以并行化，可以取代rnnattention的本质，输入两个向量，输出两个向量有多像。Self-Attentionlayerd是
q和k的dim，得到b1的vector子主题整体矩阵的表示方法O就是输出整理工作流程，可以通过GPU进行计算。11分支主题分支主题12学习的步骤：1、Attention机制；2、Transformer；3、BER学习的步骤：1、Attention机制；2、Transformer；3、BERT13分支主题分支主题感谢聆听

献花(0)

(本文系职场细细品原创)

类似文章 更多

发表评论：