配色: 字号:
BERT学习
2020-12-26 | 阅:  转:  |  分享 
  
BERT2020-12-25演讲人01BERT是transformer的EncoderBERT是transformer的Encoder所以注
意位置BERT需要训练Encoder就好了,训练时候不需要LabelBERT,给句子,每个句子都会输出一个Embedding
encoder中self-attention字为单位训练更为格式因为词的数量级别太大,实际使用上会方便很多。02Transfo
rmerTransformergoogle在2017年发表的一篇论文《Attentionisallyouneed》03At
tention机制Attention机制什么是Attention011、深度学习中的注意力可以被广义的理解为表示重要性的权重向量。
022、为了预测或推断一个元素,例如图像中的像素或句子中的单词,我们使用注意力权重来估计其他元素与相关的强度,并将由注意力权重加
权的值的总和作为计算最终目标的特征。03Attention的步骤:1、计算其他元素与待预测元素的相关性权重。2、根据相关性权
重对其他元素进行加权求和。04常见问题可以作为面试题目常见问题可以作为面试题目3、bert如果有24层,可以抽取出24个vecto
r。bert的不同层抽取的vector作用不一样。2、中文的训练BERT的时候用词合适还是用字合适为什么1、bert和transf
ormer的关系:BERT是transformer的Encoder输入one-hotvector因为太长051、文字的特征提
取器1、文字的特征提取器1-of-NEncoding无法看出词和词的关系WordClass将动物、植物进行归类。Word
Embedding每个词汇用一个向量表示它,向量的某一个纬度表示了一个词的一些含义,相似的向量对应实例比较相似抽featu
re的方法已经广泛的应用的NLP的任务中来了。但是同一个词汇可能有不同的意思,过去的wordembedding是一模一样的,
但是同一个词语在不同上下文中会有细微的差异。总结:过去的embedding的方式,无法区分一词多义的问题、有些比较Cont
extualizedWordEmbedding基于上下文的词向量062、什么是ELMO2、什么是ELMOEmbeddin
gsfromlanguagemodel,是用来产生ContextualizedWordEmbedding的基于RNN-b
asedlanguagemodels,要训练一个RNNbased的models不需要label,训练任务的目的就是预测下一个
词。训练过程中就可以产生,当前token的embedding会根据前面的数据产出ContextualizedWordEmbed
ding不光考虑前向还要考虑后向的任务考虑deep任务的rnnELMO如何将deeprnn产出个各种embedding做融合。2、
什么是ELMOELMO进行加权的融合,权重是学习出来的,但是会根据不同的使用任务设置不同的权重。2、什么是ELMO不光考虑
前向还要考虑后向的任务beginofsentence2、什么是ELMO考虑deep任务的rnn产生了一个问题,如何选择合适的
embedding2、什么是ELMOELMO进行加权的融合,权重是学习出来的,但是会根据不同的使用任务设置不同的权重。d
ownstreamtasks指的是不同的embedding的任务。073、如何训练BERT1、maskedLM挖空15%pe
rcent的词汇。把mask部分,丢进去是linearmulticlassclassifier因为linear表征能力非常
弱,经过24层,所以BERT必须抽出一个非常好的repredicting3、如何训练BERT2、nextsentencepre
diction预测两个句子是否需要拼接在一起。CLS放在开头或者结尾影响不大,因为不是基于RNN的架构。[SEP]:thebo
undaryoftwosentences两个句子的边界[CLS]:thepositionthatoutputscl
assificationresults是一个分类的任务子主题3、如何训练BERT在论文中,approaches1and2
usedatthesametime3、如何训练BERTERNIE是针对中文设计的子主题084、如何使用BERT1、输入
句子,输出一个class(文章分类)014、如何使用BERT2、输入句子,输出每一个位置的分类。023、输入两个句子,输入一个分
类034、QueationAnswering,输入文章可以得到答案。04把BERT当做一种抽取feature的工具054、如何使
用BERT1、输入句子,输出一个class(文章分类)给出【CLS】分类的符号,和句子BERT的参数和LinearClassif
ier参数一起进行学习。LinearClassifier从头学、bert进行微调4、如何使用BERT2、输入句子,输出每一个位置
的分类。4、如何使用BERT子主题3、输入两个句子,输入一个分类输入前提和假设。让BERTBA4、如何使用BERT4、Quea
tionAnswering,输入文章可以得到答案。子主题训练需要准备问题、文章已经问题的答案在文章的第几个单词到第几个单词。09
5、GPT5、GPTGPT-2的参数量Zero-shotLearning最大模型的参与量1500Mreadingcompre
hension结果很好summarization结果很差translation结果很差10Self-Attentionl
ayer050403060102Self-AttentionlayerRNN和CNN的弊端RNN不能进行并行化CNN可以并行计算
,但是需要叠加很多层,才能看的懂依赖输入和输出和RNN是一样,input是一个seq,输出是一个seqself-attention
可以并行化,可以取代rnnattention的本质,输入两个向量,输出两个向量有多像。Self-Attentionlayerd是
q和k的dim,得到b1的vector子主题整体矩阵的表示方法O就是输出整理工作流程,可以通过GPU进行计算。11分支主题分支主题12学习的步骤:1、Attention机制;2、Transformer;3、BER学习的步骤:1、Attention机制;2、Transformer;3、BERT13分支主题分支主题感谢聆听
献花(0)
+1
(本文系职场细细品原创)