EMNLP 2021中预训练模型最新研究进展

520jefferson 2021-10-04

展开全文

机构｜中国人民大学信息学院

研究方向｜序列表示学习与应用

导读

EMNLP 2021是人工智能领域自然语言处理（ Natural Language Processing，NLP）三大顶级会议之一，有着广泛的影响力。本年度会议计划于11月7日-11月11日，在线上和线下（多米尼克共和国Punta Cana）同时举行。官方在会议网站上发布了论文接收列表：https://2021./papers

本文从main conference选择了98篇可以公开检索到的预训练技术相关文章，并按照预训练模型与知识、预训练相关技术、多语多模态预训练模型、预训练模型的性质与评估、预训练模型的应用、预训练模型的微调等进行分类整理，并为每篇论文提供了一两句话作为导读，以供参考。文章也同步发布在AI Box知乎专栏（知乎搜索「 AI Box专栏」），整理过程中难免有疏漏，欢迎大家在知乎专栏的文章下方评论留言，交流探讨！

预训练模型与知识

Editing Factual Knowledge in Language Models

本文提出了一种知识编辑器，它可以用来编辑事实知识，从而修正“错误”或意外的预测，而不需要昂贵的再培训或微调。其训练一个具有约束优化的超网络，在不影响其他知识的情况下修改一个事实;然后用训练后的超网络预测测试时的权值更新。

Relational World Knowledge Representation in Contextual Language Models: A Review

这是一篇综述，其中概述了语言模型如何在训练前和微调过程中获得相关世界知识。文中提出了一种新的分类法，根据提供给语言模型的知识库监督级别对知识表示方法进行分类，从没有明确的监督到实体和关系级别的监督。

Knowledge Base Completion Meets Transfer Learning

本文引入了一个用于在不同KBC模型之间迁移知识的方法，这些不同的KBC模型可以是基于开放的或者规范的知识图谱，而不需要实体和关系的匹配。

Knowledge-Aware Graph-Enhanced GPT-2 for Dialogue State Tracking

本文提出了一个新的混合结构，利用图注意网络的表示增强GPT2，以允许对槽值进行因果，序列预测。

NegatER: Unsupervised Discovery of Negatives in Commonsense Knowledge Bases

本文提出了NegatER，其使用语言模型对常识知识库中的潜在否定进行排序，其只依赖于LM中的积极知识，而不需要真实的否定例子

预训练相关技术

What to Pre-Train on? Efficient Intermediate Task Selection

本文对快速迁移学习中的各种有益任务的方法进行了综合比较。重点关注参数和计算效率适配器设置，突出显示不同的数据可用性场景，并为每种方法提供费用估算。结果表明，有效的基于嵌入的方法，只依赖于各自的数据集，优于计算昂贵的小样本微调方法。

Less is More: Pretrain a Strong Siamese Encoder for Dense Text Retrieval Using a Weak Decoder

本文提出使用一个较弱的解码器从而学习一个更强的编码器，该方法得到的编码器可以用于增强稠密检索任务。

CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations

提出了一种新的预训练的通用表示CTAL以解决语音和语音任务，其在大规模的语音-语言对数据集上通过两个预训练任务对其进行表示学习。

Low-Resource Dialogue Summarization with Domain-Agnostic Multi-Source Pretraining

本文提出了一个领域不可知的低资源对话摘要的多源预训练范式，该范式利用多个不同来源的外部大规模语料库来促进对话建模、摘要语言建模和抽象摘要。除去传统的预训练任务，其还采用对抗信号来学习领域未知信息。

LayoutReader: Pre-training of Text and Layout for Reading Order Detection

本文提出了一个用于读取顺序检测的基准数据集ReadingBank，，包含500,000个文档和图像。此外还提出了一种新的基于预训练的阅读顺序检测方法LayoutReader。其显著优于从左到右、从上到下的启发式算法以及一些较强的基线。且可以很容易地适应任何OCR引擎，从而可以改善下游任务的读取顺序。

DILBERT: Customized Pre-Training for Domain Adaptation with Category Shift, with an Application to Aspect Extraction

本文提出了DILBERT，一种针对类别转移的无监督领域适应的预训练方法，并将其应用到方面抽取任务中。其通过对BERT预训练任务进行修改，可以更好地适应新的领域和方面类别。

BARThez: a Skilled Pretrained French Sequence-to-Sequence Model

本文提出了第一个基于法语的大规模预训练序列到序列语言模型，并提出了一个用于法语摘要生成的数据集。

Improving Sequence-to-Sequence Pre-training via Sequence Span Rewriting

本文提出sequence span rewriting，先生成mask span部分的内容，再重写恢复原句，相比text infilling可以引入更多样和细粒度的监督信号。

ARMAN: Pre-training with Semantically Selecting and Reordering of Sentences for Persian Abstractive Summarization

提出了ARMAN，一个基于Transformer的编码解码模型，并设计了三个预训练目标。ARMAN根据修改后的语义评分，从文档中选择突出的句子进行掩蔽，形成伪摘要。

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute

本文提出了SRU++，一个高效的架构，结合了快速的递归和对序列建模的关注。其同时具有很强的建模能力和训练效率

ReasonBERT: Pre-trained to Reason with Distant Supervision

提出了一种预训练模型ReasonBERT，它增强了语言模型在长期关系和多重(可能是混合的)上下文上进行推理的能力。

Condenser: a Pre-training Architecture for Dense Retrieval

然而，在本文中，我们发现，典型的预训练LM没有一个为双编码器准备好的内部注意力结构。它们不能有效地将信息压缩成单一的稠密向量表示。本文提出了一个新的架构，冷凝器，它在预训练时建立了特定结构。

多语多模态预训练模型

UNKs Everywhere: Adapting Multilingual Language Models to New Scripts

本文系统地评估了语言模型基于已知和未知语料来适应到未知语言的策略。其评估了存储在原始嵌入矩阵中的信息的重要性，提出利用词汇重叠标记的方法来提取潜在的语义概念，并在其基础上提出了一种将嵌入矩阵编码为低维嵌入和上投影的新方法。

Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis

本文提出了分层互信息最大化(MI)的多模态融合算法MMIM，该模型对单模态输入和融合阶段分别采用两个MI下界。且针对这些下界中某些项的难解性，专门设计了精确、快速、稳健的估计方法。

Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization

本文提出了一种简单而有效的方法来构建用于多模态摘要生成任务的视觉引导的生成式语言模型，其使用基于注意力的附加层来整合视觉信息，同时保持其原始文本生成能力。

Allocating Large Vocabulary Capacity for Cross-Lingual Language Model Pre-Training

本文研究词汇量大的预训练跨语言模型。首先提出了在跨语言模型中构建大规模多语言词汇的方法，再进行定量分析。此外，本文还提出了基于KNN的目标采样，通过逼近softmax函数来加速预训练时大规模多语言词汇的分配。

Zero-Shot Cross-Lingual Transfer of Neural Machine Translation with Multilingual Pretrained Encoders

本文研究零样本跨语言NMT迁移任务，并提出SixT来实现NMT的零样本跨语迁移，且充分利用标记数据，增强其迁移能力。

ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

本文提出了ERNIE-M，鼓励模型用单语语料库对齐多语言的表示，以克服并行语料库大小对模型性能的限制。其将反向翻译整合到预训练过程中，并在单语语料库上生成伪平行句对，以实现不同语言之间语义对齐的学习，从而增强跨语言模型的语义建模。

mT6: Multilingual Pretrained Text-to-Text Transformer with Translation Pairs

本文改进了带有翻译对的多语种文本到文本转换转换器(MT6)，以解决三种跨语言的文本到文本训练前任务，且该模型还采用了一个部分非自回归目标的文本到文本的前训练。

Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers

本文提出了一种基于跨模态输入消融的诊断方法，以评估这些模型实际集成跨模态信息的程度。该方法涉及到从一个模态的输入，完全或选择性地基于跨模态进行对齐，并评估模型在其他模态上的预测性能。

BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural Machine Translation

证明了简单地使用定制的、合适的双语预训练语言模型(BIBERT)的输出(上下文嵌入)作为NMT编码器的输入，就可以实现最先进的翻译性能。此外还提出了一种随机层选择方法和双向翻译模型，以确保充分利用上下文嵌入

Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking

通过预训练的多语言模型的中间微调来增强迁移学习过程，其中多语言模型是根据不同但相关的数据和/或任务进行微调的。其使用平行和对话的电影字幕数据集设计适合下游对话任务的跨语言中间任务。

Role of Language Relatedness in Multilingual Fine-tuning of Language Models: A Case Study in Indo-Aryan Languages

本文发现，多语言微调有效地利用了语言相关性，从而改善了单语言方法。我们用五种语言模型的实验证实了印度-雅利安语系的这一说法。多语言微调对于资源匮乏的语言尤其有效(例如，奥里亚语和旁遮普语在相对规模上提高了150%)。

预训练模型的性质与评估

Extract, Denoise and Enforce: Evaluating and Improving Concept Preservation for Text-to-Text Generation

本文检验了当前的文本到文本生成的预训练语言模型能否在没有明确指导的情况下保留源输入中的重要概念。我们提出了一个简单而有效的自动约束提取、去噪和强制执行框架，来添加重要的输入概念作为词汇约束时以帮助指导文本到文本生成。

How much pretraining data do language models need to learn syntax?

本文基于RoBERTa原始文本数据，研究不同数据增量的情况下，训练数据大小对模型句法能力的影响。

Discretized Integrated Gradients for Explaining Language Models

本文提出了离散集成梯度方法（DIG），允许沿着非线性插值路径进行有效归因。并为离散词嵌入空间设计了两种插值策略，使产生的插值点接近嵌入空间中的实际词，产生更可信的梯度计算。

Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning

这篇文章重点讨论了预训练模型的一个潜在威胁:权重中毒(后门)。其探索了以前的方法的局限性，并引入了一种分层参数中毒训练策略和一种组合触发设置来解决相应的局限性。

Masked Language Modeling and the Distributional Hypothesis: Order Word Matters Pre-training for Little

本文讨论了一个假设，即掩码语言模型的优秀性能可以部分地解释为它学习经典NLP pipeline的能力。其发现绝大多数MLM的成功不是由于它对句法和语义机制等传统NLP知识的习得

Incorporating Residual and Normalization Layers into Analysis of Masked Language Models

本文从整个注意块中的多头注意力、残差连接和层标准化的角度对Transformer进行分析。

What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers

超大规模的韩语预训练语料HyperCLOVA。

Stepmothers are mean and academics are pretentious: What do pretrained language models learn about you?

提出了第一个包含一系列社会群体典型属性的数据集。其提供的数据获取技术使能够在未来廉价地检索类似的数据集，从而实现对刻板印象随时间变化的比较分析

Transformer Feed-Forward Layers Are Key-Value Memories

本文提出transformer结构里的FFN模拟了键-值存储的角色，键与可解释的输入模式相关，值引导对应键所代表的模式的下一个词的预测分布，最终模型的输出是通过这些分布的加权聚合形成的。

What's in Your Head? Emergent Behaviour in Multi-Task Transformer Models

本文发现在预训练语言模型上训练多个任务对应的头时，会产生一种转向效应，目标头部会影响另一个头部的行为，引导它达到超出其训练目标的能力。

RuleBERT: Teaching Soft Rules to Pre-Trained Language Models

研究了预训练模型是否可以用软规则进行推理，其尝试了一种概率答案集编程(LPMLN)，其可以与其他的语义方法一起使用。

Disentangling Representations of Text by Masking Transformers

提出了学习解离表示的新视角，试图揭示预训练的Transformer(如BERT)中产生文本解离表示的现有子网络。通过掩码方法来估计二元掩码后权值或BERT中的隐藏状态，而不改变所有其他参数

Putting Words in BERT's Mouth: Navigating Contextualized Vector Spaces with Pseudowords

提出了一种新颖的方法和数据集，使用允许输入空间连续性的遍历技术，用于研究BERTspace的几何结构。其证明了在bert空间中有大量的规律性，各个区域对应于不同的意义。且在空间区域中也发现了不符合任何可理解意义的“空洞”。

Sorting through the noise: Testing robustness of information processing in pre-trained language models

本文检验了模型在分心内容面前部署相关上下文信息的能力，提出了需要使用关键上下文信息的完形填空模型，并引入分心内容来测试模型如何稳健性地保留和使用关键信息进行预测。

Mitigating Language-Dependent Ethnic Bias in BERT

分析和减轻英语、德语、西班牙语、朝鲜语、土耳其语和汉语单语BERT中的民族偏见，研究了民族偏见及其在不同语言中的变化。为了观察和量化种族偏见，开发了一种新的度量标准，称为分类偏见评分。然后提出了两种缓解方法;首先使用多语言模型，然后使用两种单语言模型的上下文词对齐

You should evaluate your language model on marginal likelihood over tokenisations

本文认为，语言模型应该评估它们的边际似然token化。比较了基于抽样的边际似然估计的不同估计量，证明了在可管理的样本数量下估计边际似然是可行的。

All Bark and No Bite: Rogue Dimensions in Transformer Language Models Obscure Representational Quality

本文发现一小部分不正常的维度(通常只有1-3个)主导了预训练模型的度量。此外发现了主导相似性度量的维度和那些对模型行为重要的维度之间存在显著的不匹配。

Exploring the Role of BERT Token Representations to Explain Sentence Probing Results

对BERT的表示空间进行了深入的分析，发现BERT倾向于在特定的token表示中编码有意义的知识，且可以检测语法和语义异常，区分语法上的数字和时态子空间

Gradient-based Adversarial Attacks against Text Transformers

提出了一种针对Transformer的通用基于梯度的攻击模型，其寻找由连续值矩阵参数化的对抗性例子的分布，从而实现基于梯度的优化

Do Long-Range Language Models Actually Use Long-Range Context?

基于PG-19数据集，对两个Long-Transformer语言模型上的token和序列级别改进的影响进行了细粒度分析。研究结果表明，这些模型很少利用长的上下文，它们大多仅仅以表面的方式使用该部分特征。

Pre-train or Annotate? Domain Adaptation with a Constrained Budget

在本文讨论了一些与NLP模型适应新领域的成本相关的问题，该问题可以被定义为消费者选择问题

The Stem Cell Hypothesis: Dilemma behind Multi-Task Learning with Transformer Encoders

本研究通过突出具有天赋的注意力头来分析对5个核心任务的干扰，这些注意力头的重要性在许多下游任务中是不变的。遵循干细胞假说：这些注意力头就像干细胞一样，可以成为专家，但不能成为全才。

Controlled Evaluation of Grammatical Knowledge in Mandarin Chinese Language Models

本研究评估了六种汉语语法关系模型，包括句法依赖关系和语义相容关系。其使用普通话作为案例研究，分析显式语法建模(由rnng和plm执行)的潜在优势如何从英语推广到一种不同类型的语言。

预训练模型的应用

DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings

本文提出基于对话的对比学习从多轮对话中学习句子表示，并为三个对话数据集构建了基于对话的句子嵌入评价基准。

ConvFiT: Conversational Fine-Tuning of Pretrained Language Models

本文提出一个两阶段对话微调方法，通过双重编码器结构将预训练语言模型转换为通用的（第一阶段后）和任务特定的（第二阶段后）对话句子编码器。

Dialogue State Tracking with a Language Model using Schema-Driven Prompting

本文提出自然语言增强的基于prompt的对话状态追踪（DST）模型，将该任务转换为从LM中prompt知识，模型能够从知识丰富的序列到序列模型（T5）中受益。

Learning to Selectively Learn for Weakly-supervised Paraphrase Generation

针对弱监督语义转写生成任务，本文通过基于检索的方式获得大量弱标记平行句;再建立元学习框架，逐步选择有价值的样本，在句子释义任务中精细调整预训练的语言模型

Text Detoxification using Large Pre-trained Neural Models

本文提出两种为恶毒文本量身定制的风格转移模型，将其转换成无毒文本。它们都结合了高质量的预训练语言模型和额外的风格指导模型。ParaGeDi受有风格限定的GPT-2模型指导进行风格转换。CondBERT模型基于BERT但是不需要任何微调，其风格控制通过预训练的毒性分类器来实现。

Memory and Knowledge Augmented Language Models for Inferring Salience in Long-Form Stories

本文采用巴尔特基数函数和惊奇理论衍生的无监督事件重要性检测方法，并将其应用于较长的叙事文献。其改进了标准的Transformer语言模型，加入了一个外部知识库(源自于检索增广得到)，并添加了记忆机制以提高对长文章的效果。同时还利用来自Shmoop经典文学作品语料库的章节对齐摘要来获得标注数据。

SimCSE: Simple Contrastive Learning of Sentence Embeddings

采用Dropout机制进行数据增广来进行对比学习，从而得到更好的句子表示用于各种句子级任务

Structural Adapters in Pretrained Language Models for AMR-to-Text Generation

提出了一种新的适配器结构STRUCTADAPT，其可以将图结构显式地被预训练语言模型来建模，且实验表明它在两个AMR-to-text基准测试中取得了最好的结果，但是训练的参数少得多。

Universal Sentence Representation Learning with Conditional Masked Language Model

提出了一种新的句子表示学习方法——条件掩码语言模型CMLM。该模型通过对相邻句子的编码向量进行约束，将句子表示学习融入到MLM训练中。

LM-Critic: Language Models for Unsupervised Grammatical Error Correction

这项工作展示了如何利用预训练的语言模型(LM)来定义一个LM-批评家，如果LM赋予一个句子比它的局部扰动更高的概率，它就会判断一个句子合乎语法。

Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training

提出一个噪声鲁棒的学习计划，其包括一个新的损失函数和一个噪声标签删除步骤，以训练NER distantly-labeled数据，其利用预训练语言模型并采用情景化的自我训练方法来改善NER模型的泛化能力。

Knowing False Negatives: An Adversarial Training Method for Distantly Supervised Relation Extraction

本文提出一个两阶段的方法。首先启发式地利用深度神经网络的记忆机制找出可能的假负例样本。然后通过对抗性训练将未标记数据与训练数据对齐到统一的特征空间中，并进一步利用伪标签中包含的信息

Fast, Effective, and Self-Supervised: Transforming Masked Language Models into Universal Lexical and Sentence Encoders

本文提出Mirror-BERT，一种简单快速，利用对比学习和自监督，高效地将Masked PLM转换为一个通用词汇和句子的编码器。

PAUSE: Positive and Annealed Unlabeled Sentence Embedding

本文试图弥合监督和非监督句子嵌入技术之间的差异，提出了一种通用的端到端句子嵌入方法PAUSE，其利用标签同时探索未标记句子对。

RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

本文提出了一个检索模型和精排模型的联合训练框架（RocketQAv2），其使用统一的listwise优化模式，让两个模型的相关性信息可以进行传递，从而通过动态的蒸馏过程实现了两个模型的联合训练。其还设计了一种混合数据增广策略，通过对具有多样性和高质量的训练样例进行采样，让listwise训练方式更具有效率。

ReGen: Reinforcement Learning for Text and Knowledge Base Generation using Pretrained Language Models

提出了ReGen，利用强化学习(RL)来提高文本和图的双向生成性能。其采用图线性化使这两个任务可以被重新框架为序列到序列生成问题。

Efficient Nearest Neighbor Language Models

本文探索了几种不同的方法来提高k-最近邻语言模型的效率，在达到可比性能的同时达到6倍的加速

Structure-aware Fine-tuning of Sequence-to-sequence Transformers for Transition-based AMR Parsing

提出了将预训练的Seq2Seq模型与基于transition的方法相结合的AMR抽取方法。该模型将指针网络和抽取结构信息融入了BART架构，在AMR 2.0中取得了SATO结果。

Cross-Attention is All You Need: Adapting Pretrained Transformers for Machine Translation

探索了cross-attention在翻译任务中的作用，分析了仅微调cross-attention可以取得与微调整个模型接近的结果，并进一步尝试了缓解灾难遗忘和零样本学习。

CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for Code Understanding and Generation

提出了利用T5架构的统一的代码理解、生成的预训练模型；同时利用注释信息进行了自然语言-代码对齐的双模态训练。实验表明该模型在CodeXGLUE取得了SOTA效果。

Parallel Refinements for Lexically Constrained Text Generation with BART

提出了可用于限制文本生成的模型，在BART的基础上，在encoder添加分类器指导decoder哪里需要替换、插入，同时decoder利用encoder的信息并行进行迭代精炼生成。

FewshotQA: A simple framework for few-shot learning of question answering tasks using pre-trained text-to-text models

提出了利用预训练text-to-text模型的小样本QA框架，在微调时对齐了预训练的MLM任务。实验结果表明了该方法大幅提升了小样本QA任务结果。

ECONET: Effective Continual Pretraining of Language Models for Event Temporal Reasoning

提出了一种持续预训练方法，使PTLMs能够具有关于事件时间关系的知识。本文设计了自监督学习目标，以恢复被掩盖的事件和时间指标，并从残缺的对应句(事件或时间指标被替换)中区分句子。

Contrastive Out-of-Distribution Detection for Pretrained Transformers

这项工作为只需要ID数据的预训练的Transformer提出了一个无监督OOD检测框架。系统地研究了对比学习和评分函数的组合，且提出了一种基于边缘的对比目标学习表示对齐，结合马氏距离，在各种任务和数据集上获得了最佳性能。

Constrained Language Models Yield Few-Shot Semantic Parsers

使用语言模型将输入转述为一种类似英语的受控子语言，该子语言可以自动映射到目标意义表示。

Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to Corpus Exploration

提出了一个对比的微调目标，使BERT能够产生更强大的短语嵌入。该方法(Phrase-BERT)依赖于使用一个paraphrase生成模型来自动生成的不同短语的paraphrase。

Pairwise Supervised Contrastive Learning of Sentence Representations

提出了一种基于样例区分的方法PairSupCon，旨在将语义蕴涵和矛盾理解与高级分类概念编码联系起来。

Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems

设计了一种自训练方法，利用丰富的未标记对话数据，进一步改进ToD系统的少样本学习场景中最先进的预训练模型。具体来说，其迭代地标记最自信的未标记数据，以训练更强的Student模型。且通过使用掩码语言模型替换非关键符号来进行数据增广，以更好地训练学生

DyLex: Incoporating Dynamic Lexicons into BERT for Sequence Labeling

本文提出了DyLex，一种基于BERT的序列标记任务的插件式词典合并方法。其采用了词语无关的标签嵌入，避免了在更新词汇时对表示进行重新训练。且还采用了一种有效的监督词汇知识去噪方法来平滑匹配噪声。

Different Strokes for Different Folks: Investigating Appropriate Further Pre-training Approaches for Diverse Dialogue Tasks

在进一步预训练阶段，本文通过设计各种不同的任务来改进多任务导向的对话下游任务。实验表明，不同的下游任务偏好不同的进一步预训练任务，这些进一步前训练任务具有内在的相关性，大多数对某些目标任务的改善效果显著.

Learning Implicit Sentiment in Aspect-based Sentiment Analysis with Supervised Contrastive Pre-Training

采用监督对比学习预处理从领域内语言资源中检索的大规模情感标注语料库，其通过将内隐情绪表达与具有相同情绪标签的情绪表达对齐，使得预训练过程可以更好地捕捉评论中的内隐和外显情绪倾向。

预训练模型的微调

Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models

提出了一种新的简单且通用的微调框架——虚拟数据增广（VDA），其不直接的生成增广数据，而是基于预训练模型的embedding层利用一个混合多项式分布来对相关embedding进行加权求和，进而生成虚拟的embedding。

Finetuning Pretrained Transformers into RNNs

提出了T2R，将预训练的Transformer看作RNN来进行微调，以减少其在自回归生成任务上的时间和内存开销

Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

微调阶段，在每次梯度更新时仅更新一部分模型参数，但是却在下游任务上有普遍的提升。

GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based on Transformer Networks

提出了一种基于预训练Transformer模型的MTL辅助任务自动选择方法GradTS，其基于梯度进行任务选择，且可以同时实现消耗的时间和资源更少。

Knowledge Enhanced Fine-Tuning for Better Handling Unseen Entities in Dialogue Generation

在知识库的帮助下，本文引入了两个辅助训练目标：解释掩码词，和上位词生成，使模型在推理过程中无需外部知识就能产生有知识的响应

The Power of Scale for Parameter-Efficient Prompt Tuning

本文提出prompt tuning，并在大语言模型上展示其与模型微调的竞争力。本文分析了许多设计选择方案，显示其质量和健壮性随规模逐渐提高。且在域转移问题上，显示prompt tuning优于模型微调。并提出prompt ensemble并展示其有效性

On the Influence of Masking Policies in Intermediate Pre-training

本文提出一种方法来自动的发现最能帮助下游任务的中间预训练策略，放在预训练和下游微调之间，提升下游任务性能。

Muppet: Massive Multi-task Representations with Pre-Finetuning

提出了预微调，这是介于语言模型预训练和微调之间的一个额外的大规模学习阶段。预微调是一种大规模的多任务学习(大约50个数据集，总计超过480万个标记示例)，旨在鼓励学习能够更好地泛化许多不同任务的表示

其他学习策略

Exploring Task Difficulty for Few-Shot Relation Extraction

本文介绍了一种基于对比学习的新方法，通过利用关系标签信息来判断任务的难易，进而学习更好的表示。且进一步设计了一种学习方法，允许模型自适应学习如何专注于困难的任务。

Text AutoAugment: Learning Compositional Augmentation Policy for Text Classification

本文提出了一个名为文本自动增强(TAA)的框架，以建立一个组合的可学习的数据增强范式。其将各种增广策略操作相组合，利用高效的贝叶斯优化算法自动搜索最优策略，大大提高了模型的泛化能力

Dynamic Knowledge Distillation for Pre-trained Language Models

本文探讨了一个动态的知识蒸馏，使学生能够根据自己的能力来调整学习过程。其从教师模式、数据选择和数据蒸馏目标适应三个方面探讨了动态调整。

Distilling Linguistic Context for Language Model Compression

本文提出了一个新的语言表征学习的知识蒸馏目标，通过单词关系和层转换关系在表征之间转移知识。

Comparing Text Representations: A Theory-Driven Approach

提出了一种方法来量化数据表示和一组关联标签之间的对齐。验证其假设：数据集的困难在于选择表示和标签之间的对齐函数。

HittER: Hierarchical Transformers for Knowledge Graph Embeddings

提出了HittER，一个Transformer模型来联合学习实体-关系组合和基于源实体邻域的关系上下文。该模型由两个不同的Transformer块组成:底部块提取源实体局部邻域内每个实体-关系对的特征，和顶部块聚合底部块输出的关系信息。

AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages

提出了AFROMT，一种适用于八种广泛使用的非洲语言的标准化、清洁和可复制的机器翻译基准。并开发了一套用于系统诊断的分析工具。此外还开发了两种新的基于数据增强的策略，利用词级别对齐信息和伪单语数据来训练多语言序列-序列模型

Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach

提出了一个模型，使用多语言预训练和对阿卡德文本上的微调，实现在阿卡德文本中进行缺失符号补全。本文发现在这样一个低资源的环境中，来自训练前的信号可能比微调目标更重要。零样本模型优于单语阿卡德模型。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： 520jefferson > 《机器学习/深度学习/tensorflow》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

520jefferson

关注对话

TA的最新馆藏

一些通用的Makefile文件模板
领域/场景大模型也太难训了吧
PEFT | Transformer参数量、计算量、显存占用分析
Broadcast,Scatter,Gather,Reduce,All
浅析 | 大语言模型细节、训练及微调
[转] LLMs之InternLM：InternLM/InternLM-7B模型的简介、安装、使用方法之详细攻略

喜欢该文的人也喜欢更多

热门阅读换一换