综述：扩散模型在文本生成中的应用

520jefferson 2023-03-22 发布于北京

展开全文

机构｜中国人民大学

研究方向 | 自然语言处理

本文介绍了小组的综述文章Diffusion Models for Non-autoregressive Text Generation: A Survey，总结了扩散模型在文本生成领域的最新进展。文章也同步发布在AI Box知乎专栏（知乎搜索 AI Box专栏），欢迎大家在知乎专栏的文章下方评论留言，交流探讨！

论文链接：https:///abs/2303.06574

1. 引言

文本生成任务旨在根据输入数据生成接近人类写作的文本，在现实世界中已取得广泛的应用，如机器翻译、文本生成等。受益于出色的序列建模能力，RNN、Transformer等深度学习模型已成为了文本生成任务的主干模型。最近，预训练语言模型（PLMs）进一步提升了文本生成任务的效果。在大规模语料库上进行预训练后，PLMs可以在下游任务上进行高效的微调，利用之前学习到的知识提高任务表现。通常，上述文本生成方法主要采用自回归方式（Autoregressive, AR）逐个生成输出token。这种方式能够捕捉token之间的时序依赖关系，但在生成长文本时会很耗时。因此，研究人员提出了非自回归（Non-autoregressive, NAR）生成方法[1]，它能够并行生成所有token，极大地降低了推理延迟。

然而，非自回归模型在生成准确性方面通常不如自回归模型，因为其并行的生成方式难以捕捉到token间的依赖关系。为了缩小二者间的性能差距，在图像生成方面取得显著成果的扩散模型[2]也被引入非自回归文本生成领域。扩散模型通过多步去噪过程逐步将随机噪声转化为数据样本。对于非自回归文本生成任务，扩散模型可以根据给定输入数据迭代地修改中间生成结果，更容易处理复杂的控制条件并生成高质量的目标文本。此外，通过采用适当的采样加速方法，扩散模型可以很好地权衡推理时间和生成质量。

现有的工作已经用于图像生成的两种典型扩散过程引入到了文本生成中，即连续扩散和离散扩散。其中，连续扩散过程在连续的latent space内进行扩散，而离散扩散过程则在离散的token层次进行扩散。我们在表1中列举了这两类模型的代表工作并比较了它们的特征。但是，由于文本的离散特质和复杂语义，有效地将这些扩散模型应用于非自回归文本生成任务并不容易。因此，已有的研究在扩散模型的原始设置基础上引入了新的策略，包括修改训练目标，采用专门为文本设计的noise schedule和集成预训练语言模型等。

本综述首先概述了文本扩散模型，并分别介绍了离散和连续两类文本扩散模型。我们进一步总结了扩散过程中的四项关键设计，即去噪网络，noise schedule，目标函数以及conditioning strategy。之后我们讨论了PLMs在文本扩散模型中的应用以及其他针对文本数据做出的改进。最后展望了文本扩散模型未来的发展方向。

2. 文本扩散模型概述

扩散模型在图像和音频生成领域已取得了重大进展，其在文本生成上的应用也得到了越来越多的关注。本章中我们回顾了扩散模型的概念，给出了文本扩散模型的正式定义并比较了其和传统非自回归模型的区别。

2.1 扩散模型

扩散模型是一类隐变量模型，由一个前向和后向的马尔可夫过程组成。前向过程 $q(x_t|x_{t-1})$ 用随机噪声逐渐打乱原始数据 $x_0$ 。后向过程 $p_{\theta}(x_{t-1}|x_t)$ 通过一个去噪网络 $f_{\theta}$ 逐渐将一个随机噪声复原为期望的数据样本。

具体来说，给定数据样本 $x_0\sim q(x)$ ，前向过程从下述分布中采样一系列隐变量 $x_1, ..., x_T$ ：

其中 $\beta_t \in (0,1)$ 是噪声规模。根据一个提前定义的noise schedule， $\beta_t$ 随时间步的增大而增大，并最终将 $x_0$ 打乱为随机噪声。通过重参数化技巧，任意的中间隐变量 $x_t$ 都可以通过下式从 $x_0$ 采样得到：

其中 $\alpha_t=1-\beta_t$ ， $\bar{\alpha}_t=\prod_{i=1}^t \alpha_i$ 。逆向过程是对后验分布 $q(x_{t-1}|x_t)$ 的估计，该分布在 $\beta_t$ 较小时可被视作高斯分布。因此逆向过程也被定义为如下的高斯分布：

其中 $\mu_{\theta}(x_t, t)$ 和 $\Sigma_{\theta}(x_t, t)$ 通过由U-Net或Transformer组成的去噪网络 $f_\theta$ 参数化。在推理阶段，逆向过程从高斯分布 $p(x_T)=\mathcal{N}(x_T;0, \mathbf{I})$ 中采样一个噪声并通过 $p_{\theta}(x_{t-1}|x_t)$ 将其逐渐去噪为。扩散模型的训练目标推导自的负对数似然的变分下界（variational lower bound, VLB），可被化简为：

最终的训练目标化简自 $\mathcal L_{t-1}$ 。在增加了对 $x_0$ 的依赖后，我们可以通过贝叶斯定理显式推导出前向过程的后验分布 $q(x_{t-1}|x_t, x_0)$ ，进而得到简化后的训练目标 $\mathcal L_{\rm simple}=\sum_{t=1}^T\mathbb{E}_q \big[||\mu_t(x_t, x_0)-\mu_{\theta}(x_t, t)||^2 \big], \tag{5}$ 其中 $\mu_t$ 是后验分布 $q(x_{t-1}|x_t, x_0)$ 的均值。因此去噪网络 $f_\theta$ 的训练目标为根据 $x_t$ 和 $t$ 预测 $\mu_t$ 。根据参数化方式的不同，预测目标还可以是当前时间步添加的噪声或原始输入 $x_0$ 。

2.2 文本扩散模型

文本扩散模型基于输入数据逐渐将一个随机噪声复原为期望的文本。开始时的噪声可以是离散（如[MASK] tokens）或连续（随机高斯噪声）的，分别对应离散和连续的文本扩散模型。去噪过程依赖于一个参数化去噪网络，大多基于transformer架构。在训练阶段，去噪网络基于设定好的noise schedule，目标函数和conditioning strategy恢复被打乱的中间结果。在推理阶段，去噪网络从一个随机噪声 $\mathcal{Y}_T$ 开始，逐步将其去噪为目标文本。值得注意的是，文本扩散模型在推理阶段的每一步中都用NAR的方式并行预测隐变量。上述过程可被概括为： $p(\mathcal{Y}|c)=\prod_{t=T}^1\prod_{i=1}^n p(y_i|\hat{\mathcal{Y}}_{t+1}, c, t), \tag{6}$ 其中 $\mathcal{Y}$ 是由token序列 $y_i$ 组成的目标文本， $\hat{\mathcal{Y}}_{t+1}$ 表示在 $t+1$ 时刻预测的隐变量， $c$ 是输入条件， $t$ 是时间步。

2.3 文本扩散模型在非自回归生成中的优势

NAR模型的并行生成方式虽然能够降低推理延迟，但由于难以捕捉token之间的依赖关系，其生成质量往往不高。文本扩散模型的一些优点可以帮助提高NAR生成的准确率。

受限的迭代式改进

为了提升NAR方法的文本生成质量，已有方法引入了迭代改进的生成策略。虽然这种方式提高了生成质量，但随着迭代步数的增加，对整个改进过程的精确控制会越来越困难，从而限制了提升效果。而文本扩散模型中的迭代改进过程是受限的，每一步改进都被约束为根据确定的方差对一个随机噪声进行去噪。通过这种方式，多步的迭代过程会更加稳定。

引入中间控制

已有的NAR方法也难以对迭代过程的中间结果施加精确控制，尤其是复杂的控制条件（例如生成与给定语法树一致的句子）。对于文本扩散模型，已有工作详细研究了对中间结果的控制方法，例如引入额外分类器或使用classifier-free方法。理论和实验均已证明这些方法可以将中间结果引导向满足控制条件目标文本。

权衡时间成本和生成质量

在推理阶段，已有NAR方法主要依赖于调整迭代轮数来平衡时间成本和质量。减少迭代轮数可以增加推理速度，但也会导致生成质量的下降。然而迭代轮数基本在训练阶段就已确定，难以在推理阶段重新设计。文本扩散模型可以通过DDIM等采样加速技巧更自由的做到这一点。实验表明这类加速方法可以任意调整采样步数并且对生成质量只有轻微影响，从而使得文本扩散模型可以更好地权衡时间开销和生成质量。

3. 针对文本数据的扩散模型

由于文本数据的离散特质，将扩散模型应用于非自回归文本生成并非易事。具体来说，离散的token不能直接被连续的噪声打乱，因此我们需要对经典的扩散模型做出改进以让其适用于文本数据。在本章中，我们回顾了最近文本扩散模型领域的进展。已有工作可分为两派，一派在离散的token层面进行扩散，另一派在token的隐表示层面进行连续扩散。

3.1 离散文本扩散模型

图1(a)展示的是离散文本扩散模型。离散域中的扩散模型首先在[3]中被提出，用于预测连续数据的二进制表示。[4]进一步探索了基于标准转移核的离散状态的扩散过程。D3PM[5]提出了离散扩散模型的通用框架并首先在大规模语料上测试了离散扩散模型的性能。对于离散数据 $x\in1,...,K$ ，D3PM设计了转移矩阵 $[\mathbf{Q}_t]_{ij}=q(x_t=j|x_{t-1}=i)$ 来打乱 $x$ 。公式(1)中的前向过程现在变为：

其中 $x$ 由one-hot向量表示， $\rm Cat(\cdot)$ 是关于 $x$ 的类别分布。使用和连续扩散过程中类似的推导，我们可以得到 $x_t$ 的采样公式： $q( x_t| x_0)={\rm Cat}( x_t; p= x_0\bar{\mathbf Q}_t ), \tag{8}$ 其中 $\bar{\mathbf Q}_t=\prod_{i=1}^t \mathbf{Q}_i$ 。之后由贝叶斯定理可以得到后验分布 $q(x_{t-1}| x_{t}, x_0)$ 的具体计算形式： $q( x_{t-1}| x_{t}, x_0)={\rm Cat}\big( x_{t-1}; p=\frac{ x_t{\mathbf Q_t^{\top}}\odot x_0\mathbf{\bar Q}_{t-1}}{ x_0\mathbf{\bar Q}_{t} x_t^{\top}}\big), \tag{9}$ 其中 $\odot$ 表示点乘。至此， $\mathcal{L}_{\rm vlb}$ 可以按照公式(4)中的方式，通过计算 $q$ 和 $p_{\theta}$ 中每个分量间的KL散度得到。通过设计不同的转移矩阵 $\mathbf{Q}_t$ ，上述框架可以整合特定的扩散过程来生成文本数据。D3PM引入了一个具有吸收状态的转移矩阵，使得每个token可以以概率 $\beta_t$ 转换为 [MASK] token。在推理阶段，D3PM从一个完全由[MASK] token组成的序列开始，然后迭代地将[MASK]替换为单词，直到生成所需的文本。

3.2 连续文本扩散模型

图1(b)展示的是连续文本扩散模型，这类模型普遍先将离散的token映射为连续的embedding，之后再进行连续的扩散过程。Diffusion-LM[6]首先将连续扩散模型应用于文本生成领域。其在前向过程中增加了一个embedding步骤 $q_{\phi}( x_0| w)=\mathcal N({\rm EMB}( w), \sigma_0\mathbf{I})$ ， ${\rm EMB}( w)$ 是一个随机生成的embedding函数，用于将离散的token $w$ 映射到连续空间。对于逆向过程，Diffusion-LM添加了一个rounding步骤 $p_{\theta}( w| x_0)=\prod_{i=1}^n p_{\theta}(w_i|x_i)$ 将最后的生成结果映射回离散的token，其中 $p_{\theta}(w_i|x_i)$ 是softmax函数。推理过程从一个随机噪声开始，沿用此前介绍的连续扩散过程将噪声恢复为word embedding，最后通过rounding step将其映射为离散token。为了同时学习去噪网络以及word embedding和token之间的映射关系，Diffusion-LM将公式(4)中的训练目标修改为: $\mathcal L_{\rm vlb}^{$ 该训练目标可进一步简化为： $\begin{aligned} \mathcal L_{\rm simple}^{$ 和上述过程将token映射为embedding的方法不同，SSD-LM[7]使用词表 $V$ 上的单纯形(simplex)向量表示单词。对于单词 $w$ ，它的simplex表示 $\tilde{\boldsymbol{w}}\in \{-K, +K\}^{|V|}$ 为：

$\tilde{w}_{(i)}= \left\{ \begin{array}{cc}+K \quad {\rm when}\quad w = V_{(i)} \\ -K\quad {\rm when}\quad w \neq V_{(i)} \end{array}\right.. \tag{12}$ 在推理阶段，SSD-LM从一个随机噪声开始，同样沿用连续的扩散过程对其去噪。但在下一步解码过程之前会先将生成结果映射为公式(12)中的almost-one-hot向量的形式。

4. 扩散过程中的关键设计

去噪网络及其相关设置（例如noise schedule, 目标函数以及conditioning strategy）是文本扩散模型的核心组成部分，对生成质量有重要影响。本章中我们会介绍这些设计的细节以及文本扩散模型针对它们做出的改进。

4.1 去噪网络

去噪网络在逆向过程中从中间生成结果中移除噪声。和使用U-Net的视觉扩散模型不同，文本扩散模型通常采用transformer作为去噪网络，从而更好地捕获token之间的依赖关系。

Transformer

近年来，transformer成为了自然语言处理领域的主流架构。Transformer是一个由多个transformer层组成的encoder-decoder网络，每个transformer层都包含数个前馈网络和多头自注意力函数 $A(\cdot)$ ： $A(x)={\rm softmax}(\frac{QK^{\top}}{\sqrt{D}})V, \tag{13}$ 其中 $x$ 是输入序列，并被不同的权重矩阵分别映射为 $Q$ , $K$ , $V$ ， $D$ 表示向量维度。由于transformer在文本生成领域的强劲表现，大多数文本扩散模型将transformer的encoder或整体用作去噪网络。一些工作进一步使用了基于transformer的预训练语言模型，如BERT或RoBERTa。

4.2 Noise Schedule

Noise schedule $\beta$ 是噪声规模和时间步之间的函数，控制了去噪网络的不同输入数据的出现频率。在训练阶段，原始文本被噪声 $\beta_t$ 打乱，其中 $t$ 是随机采样的时间步。Noise schedule影响着恢复目标文本的去噪过程，从而对生成质量有重要影响。一些已有方法沿用视觉任务中的常用noise schedule，另一些则针对文本数据的离散特征设计了新的noise schedule。

Linear Schedule

DDPM提出了linear schedule， $\beta_t$ 在 $10^{-4}$ 到 $0.02$ 的范围内线性变化。这样的noise schedule使得噪声规模在刚开始时相对较小，去噪网络可以更容易恢复数据，而随着噪声规模的逐渐增加原始数据最终会被完全打乱为噪声。Difformer[8]和LD4LG[9]在文本扩散模型中也使用了相同的noise schedule。

Cosine Schedule

[10]中提出linear schedule中噪声规模的增长速度过快，使得最后一部分的隐变量都几乎被完全打乱。因此他们提出了cosine schedule，其定义 $\bar\alpha_t=\frac{f(t)}{f(0)}$ , 其中 $f(t)=\cos(\frac{t/T+s}{1+s}\cdot \frac{\pi}{2})^2$ 。Cosine schedule放缓了噪声规模的增长速度，也被SED[11]和SSD-LM用于文本生成。

Mutual Information Schedule

D3PM为离散扩散过程设计了mutual information schedule，对原始数据和隐变量之间的互信息进行线性插值。对于包括吸收状态的离散扩散模型，该schedule会退化为 $\beta_t=(T-t+1)^{-1}$ 。

Sqrt Schedule

Diffusion-LM观察到经过打乱后，单词在embedding空间中的最近邻往往保持不变，并将这种现象归因为传统的noise schedule的初始噪声规模过小，不足以打乱文本数据。因此作者提出了sqrt schedule，其定义 $\bar\alpha_t=1-\sqrt{t/T+s}$ ，噪声的初始规模更大并且增长速度更快，同时增长速度也会随时间逐渐下降避免过度打乱数据。Diffuseq[12]也使用了该noise schedule。

Spindle Schedule

非自回归生成中的easy-first policy认为常见的单词应该较早被生成出来以作为后续更少见的单词生成时的上下文。因此DiffusionBERT[13]提出了spindle schedule，对于包含信息量更多的单词赋予更高被打乱的概率。从而较少见的单词会在前向过程的开始阶段被替换为[MASK]并在去噪阶段的结尾被恢复。

Adaptive Schedule

SeqDiffuSeq[14]认为预测 $x_0$ 的难度应该随时间步的增加而线性增长。为此，作者设计了adaptive schedule，其从一个已有noise schedule中学习噪声规模和loss之间的关系，之后在训练过程中根据得到的loss更新噪声规模。

4.3 目标函数

作为另一个关键部分，去噪网络的目标函数也需要改进以适应文本生成任务。例如原来通过 $\mu_t$ 参数化的loss可能不是预测word embedding任务的最优选择，而连续文本扩散模型中新增的额外embedding和rounding步骤同样需要额外的loss项。进一步的重参数化也可以简化loss的形式。

$x_{0}$ $x_0$ -parameterized Loss

如公式（5）所述，经典扩散模型的训练目标可被简化为预测后验分布 $q(x_{t-1}|x_0, x_t)$ 的均值 $\mu_t$ 。而Diffusion-LM发现该训练目标可能导致模型对 $x_0$ 的预测不能收敛到任何word embedding上。作者认为这是因为以预测 $\mu_t$ 为目标的去噪网络缺少对 $x_0$ 的约束信息。因此作者提出用 $x_0$ 参数化训练目标，该目标可写作

$\mathcal L_{\rm simple}=\sum_{t=1}^T\mathbb{E}_{q}[||f_{\theta}(x_t, t)-x_0||^2], \tag{14}$ 其中 $f_{\theta}$ 是去噪网络。这样，去噪网络在不同时间步的预测目标被统一为原始输入 $x_0$ 。这种loss形式也被后续文本扩散模型的工作广泛采用。

Auxiliary Loss

由于连续文本扩散模型在推理阶段需要将embedding映射为word token，Diffusion-LM在目标函数中引入了一项新的loss $\mathcal L_{\rm round}=-\log p_{\theta} ({w}|x_0)$ 来更好地学习 $w$ 和 $x_0$ 之间的映射关系，其中 $p_{\theta}(w|x_0)$ 是词表上的softmax分布。该训练目标共同训练了扩散过程和embedding过程，但可能学习到一个简单解，即学习到的embedding彼此之间距离都很近，构成一个各向同性的embedding空间。另外，由于 $x_0$ 是在 $w$ 的基础上添加了少量噪声得到的，因此对 $w$ 的预测较为容易，从而不能对模型的训练提供足够的指导信息。因此，Difformer提出用 $\mathcal L_{\rm anchor}=-\log p_{\theta} ({w}|\hat{x}_0)$ 来替代 $\mathcal L_{\rm round}$ ，其中 $\hat{x}_0$ 表示模型对 $x_0$ 的预测。 $\hat{x}_0$ 和 $w$ 之间的距离较远，使得该loss可以对embedding产生足够的约束。

Surrogate Loss

RDM[15]提出对离散扩散模型的去噪过程进行重参数化。作者引入了一个step-wise rounting indicator $v_t = [v_t^{(1)}, v_t^{(2)}]$ ，其中 $v_t^{(1)}\sim {\rm Bernouli}(\lambda_t^{(1)})$ 选择被打乱的token进行还原， $v_t^{(2)}\sim{\rm Bernouli}(\lambda_t^{(2)})$ 选择经过去噪的token进行打乱。经过这种参数化后， $t$ 时刻的训练目标变为： $\mathcal{L}_t = \mathbb{E}[-\lambda_{t-1}^{(2)}\sum_{n=1}^N(1-b_{t, n})x_{0, n}^{\top}\log f(x_{t, n}; \theta)], \tag{15}$ 当 $x_t=x_0$ 时， $b_t=1$ ，否则 $b_t=0$ 。 $f(x_t, \theta)$ 是去噪网络对 $x_0$ 的预测。这样RDM的训练目标可以被替代为一个多分类的交叉熵loss。

4.4 Conditioning Strategy

通过设定不同的条件 $c$ ，文本生成任务可以被进一步分类为unconditional generation，attribute-to-text generation （如属性控制），text-to-text generation （如机器翻译）。已有的文本扩散模型设计了不同的conditioning strategies将不同的条件 $c$ 和去噪网络相结合。本章中我们将讨论这些conditioning strategies。

Unconditional Generation

当 $c$ 为空时，任务变为无条件文本生成，文本扩散模型通过逆向过程不受约束地将随机噪声转变为文本序列。SED和DiffusionBERT遵循这种任务设置来评测文本扩散模型的基本生成能力。

Attribute-to-text Generation

当 $c$ 被设置为主题或情感等属性，任务变为attribute-to-text generation。Classifier-guidance是处理这类任务的经典方法，其使用一个训练好的属性分类器在生成过程中提供梯度信息作为指导。Diffusion-LM关注细粒度的控制条件，例如语义内容或语法结构。和plug-and-play方法类似，Diffusion-LM没有直接将条件整合进去噪网络，而是利用额外的分类器在推理阶段指导生成结果。和分类器引导的视觉扩散模型[16]类似，Diffusion-LM在推理阶段会利用分类器的梯度信息更新中间结果，(3)中的逆向过程被修改为： $p_{\theta}({x}_{t-1}|{x}_t)=\mathcal{N}(x_{t-1}; \mu_{\theta}+s\nabla \log p(c|x_{t-1}), \Sigma_{\theta}),\tag{16}$ 其中 $\nabla \log p(c|x_{t-1})$ 是分类器提供的梯度， $s$ 是控制梯度大小的参数。

Classifier-free是另一种处理该任务的方法，通常显式地将条件整合进去噪网络中。LD4LG使用类别embedding作为条件，通过cross-attention机制和隐变量被整合到去噪网络中。相似地，SED在训练过程中也将条件映射为embedding，但通过self-conditioning机制将其和隐变量结合。

Text-to-text Generation

当 $c$ 被设置为文本序列或文章时，任务变为text-to-text generation，例如机器翻译和文本摘要。这类任务相较于attribute-to-text任务普遍更具挑战性，因为他们难以被简单的属性分类器控制。因此classifier-gudiance方法不再适用。Diffuseq提出了partially noising策略将条件文本整合进连续的扩散过程中。具体而言，去噪网络的输入是目标文本和条件文本的拼接。在前向过程中，拼接起来的序列被部分打乱，噪声只添加到目标文本的部分，而条件文本保持不变。逆向过程从条件文本和随机噪声的拼接开始，整个过程中条件文本依旧保持不变，随机噪声被逐渐还原。Difformer和SeqDiffuSeq将完整的transformer作为去噪网络。Encoder负责生成条件文本的embedding表示，Decoder将被打乱的文本的embedding和条件文本的embedding通过cross-attention结合，进而预测打乱前的文本。

5. 预训练语言模型的使用

由于预训练语言模型(PLMs)在文本生成任务上的出色表现，我们可以将它们整合到文本扩散模型中以提高生成质量。本章中我们将介绍这方面的已有工作。

5.1 PLMs as Denoising Networks

离散文本扩散模型的去噪网络尝试还原被[MASK]打乱的文本序列，而这一目标和已有PLMs的预训练任务非常类似，例如BERT中的Masked Language Model。因此离散文本扩散模型和PLMs的结合有很好的前景。DiffusionBERT使用预训练好的BERT作为去噪网络。不过原始的去噪网络在预测时会依赖时间步信息，而PLMs在预训练时没有遇到过这类信息。因此DiffusionBERT引入了time-agnostic decoding，在预测时不显式地提供时间步信息，而是让模型自己根据被打乱的token数量自行推测。连续文本扩散模型也可以使用PLMs， SSD-LM使用了一个预训练好的RoBERTa作为去噪网络来加快收敛速度。

5.2 Diffusion on PLM’s Latent Space

Latent diffusion models[17]在预训练好的图像编码器的隐空间中进行扩散过程，并在文本指导图像生成的任务上取得了较好效果。相似的方法也被用于文本扩散模型中。LD4LG在预训练好的BART的隐空间中训练文本扩散模型。在训练阶段，BART的encoder将文本转换为embedding，之后沿用连续扩散过程将其打乱并复原。在推理阶段，去噪网络从随机噪声中恢复embedding，之后通过BART的decoder将其解码为文本。LatentOps使用一个预训练好的GPT-2将ODE sampler采样的隐变量映射回离散的文本。Difformer用预训练好的BERT的embedding进行初始化。

5.3 Revising Pre-training Tasks of PLMs

尽管PLMs可以提供高效初始化文本扩散模型并加快收敛，但由于二者训练目标上的不一致，PLMs的隐空间可能并不适合扩散模型。因此一些工作重新设计了预训练任务并提出了基于文本扩散模型的预训练模型。GENIE[18]设计了新的预训练任务continuous paragraph denoising (CPD) 并重新预训练了一个文本扩散模型。给定一个document $d$ ,CPD 从中选择一个段落 $p$ 并用[MASK]进行替换得到 $d$ ，之后将其送入encoder，将结果作为上下文表示。之后 $p$ 通过扩散过程被打乱，并和此前得到的上下文表示一起送入去噪网络预测扩散过程中添加的噪声。

6. 其他针对文本数据的优化

在上述方法之外，已有工作还提出了许多别的技巧用于提升文本扩散模型的生成质量，它们中有一些为文本数据的独有特征而设计，另一些借鉴了其他领域扩散模型使用的方法。本章我们将介绍这些方法。

Clamping Trick

推理阶段中，在将去噪网络的预测结果用于下一步预测之前，Diffusion-LM将预测结果替换为和它距离最近的word embedding。这使得预测结果集中在词表中的单词周围，降低了rounding过程的loss。但是这种做法需要计算所有word embedding和预测结果之间的距离，因此在推理阶段的每一步都使用这种方法会非常耗时。因此GENIE只在推理阶段的最后一步使用该方法。

Self-conditioning

在标准扩散模型的逆向过程中，去噪网络基于当前的隐变量 $x_t$ 和 $t$ 做出预测。Analog Bits[19]提出可以将上一步对 $x_0$ 的预测 $\tilde x_0$ 也作为去噪网络的输入。然而在训练过程中，我们无法像在推理过程中自然的得到上一个时间步的预测结果。因此Analog Bits用 $\hat{x}_0 = f_{\theta}(x_0, \emptyset, t)$ 作为对 $\tilde x_0$ 的近似，并将其用到50%需要进行self-conditioning的训练数据上，对于剩下的训练数据 $\hat{x}_0$ 被设为0。实验表明self-conditioning可以显著提升生成质量，并也被用于文本扩散模型中。LD4LG引入了一个cross-attention层来实现self-conditioning。在训练阶段，该层根据当前样本是否需要self-conditioning，分别结合一个 $\tilde x_0$ 的映射或者一个可学习的embedding $h_\emptyset$ 。

Semi-NAR Generation

SSD-LM引入了半非自回归的生成策略，迭代地生成一个大小为B的token block，每次生成的输入都是之前生成的block和一个随机噪声的拼接。新生成的block也会和此前的block拼接起来作为新的context。上述生成过程会重复至生成的文本达到想要的长度。这样的生成策略弥补了文本扩散模型的非自回归生成方式中缺少依赖的问题。

Additional Normalization

Difformer观察到少见的token往往比常见的token拥有更大的范数，但已有的文本扩散模型对不同token添加的噪声规模是相同的。因此少见的token需要更多的扩散步骤才能被完全打乱。因此Difformer引入了一个layer normalization模块将word embedding的大小约束到相同的水平。

Timestep Sampling

在训练过程中，大多数已有工作随机采样时间步并用对应的噪声来打乱原始数据。不过[10]中提出均匀采样时间步会导致训练loss中出现噪声，并提出了重要性采样： $\mathcal{L}_{\rm vlb}=\mathbb{E}_{t\sim p_t}\big[\frac{\mathcal{L}_t}{p_t}\big], p_t \propto\sqrt{\mathbb{E}[\mathcal{L}_t^2]}, \sum_{t=0}^{T-1}p_t=1. \tag{17}$ 这种采样方式对loss较大的时间步分配较高的权重，能够稳定训练过程。

7. 结论和展望

本文概述了最近文本扩散模型领域的研究进展。我们总结了离散和连续的文本扩散模型，并讨论了扩散过程中的关键设计。我们还总结了预训练语言模型在文本扩散模型中的使用并介绍了其他针对文本数据的优化技巧。为了进一步促进该领域的发展，我们总结了以下几点文本扩散模型的未来发展方向。

Customized Noise Schedules

已有的文本扩散模型中的noise schedule大部分源自图像生成任务，在前向和去噪过程中平等对待所有的token。因此它们会忽视token在重要性和出现频率上的差异，导致对关键词或罕见词的生成不够准确等问题。DiffusionBERT中的spindle schedule对信息量更高的单词赋予了更高的权重并带来了明显的性能提升。针对文本数据并且任务相关的noise schedule需要进一步的研究。

Efficient and Effective Way to Use PLMs

尽管已有工作已经成功将PLMs应用于文本扩散模型，它们仍然难以超越原始PLMs的微调结果。原因在于这些PLMs在预训练时主要遵循sequence-to-sequence或自回归的方式，而没有考虑到扩散过程。这同样引出了另一个问题，即已有工作往往需要更多的训练步数才能将PLMs和扩散过程较好地结合。因此，如何将PLMs高效地和扩散模型相结合并且有效地在扩散过程中利用它们学习到的知识值得进一步探索。

Unified Multimodal Diffusion Models

扩散模型在文本生成图像任务上取得了显著进展，一些工作也探索了它们在image captioning等图像生成文本任务上的应用。实际上，这两类工作往往使用了相似的扩散机制和设置，只是在数据格式上有所不同。因此，如果能统一文本和图像数据的建模方式，扩散模型有希望统一图像生成文本以及文本生成图像任务的语义空间，从而成为一个统一的多模态生成模型。

Alignment with Human Values

虽然扩散模型拥有富有多样性的生成能力，它们也可能生成违背人类价值观的内容，例如种族或性别偏见。如果结合了PLMs，该问题可能会更加严重，因为已有的PLMs是在从互联网上收集的大规模语料上进行预训练的，其可能包含敏感的个人信息或带有冒犯性的句子。考虑到文本扩散模型对中间结果强大的控制能力，如何避免文本扩散模型生成上述负面内容或对生成结果进行去毒值得关注。

参考文献

[1] Jiatao Gu, James Bradbury, Caiming Xiong, Victor O. K. Li, and Richard Socher. Nonautoregressive neural machine translation. In ICLR (Poster). OpenReview.net, 2018.

[2] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.

[3] Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In ICML, volume 37 of JMLR Workshop and Conference Proceedings, pages 2256–2265. JMLR.org, 2015.

[4] Emiel Hoogeboom, Didrik Nielsen, Priyank Jaini, Patrick Forre, and Max Welling. Argmax flows and multinomial diffusion: Learning categorical distributions. In NeurIPS, pages 12454–12465, 2021.

[5] Jacob Austin, Daniel D. Johnson, Jonathan Ho, Daniel Tarlow, and Rianne van den Berg. Structured denoising diffusion models in discrete statespaces. In NeurIPS, pages 17981–17993, 2021.

[6] Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, and Tatsunori Hashimoto. Diffusion-lm improves controllable text generation. In Advances in Neural Information Processing Systems, 2022.

[7] Xiaochuang Han, Sachin Kumar, and Yulia Tsvetkov. SSD-LM: semi-autoregressive simplex-based diffusion language model for text generation and modular control. CoRR, abs/2210.17432, 2022.

[8] Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian, and Linli Xu. Difformer: Empowering diffusion model on embedding space for text generation. CoRR, abs/2212.09412, 2022.

[9] Justin Lovelace, Varsha Kishore, Chao Wan, Eliot Shekhtman, and Kilian Q. Weinberger. Latent diffusion for language generation. CoRR, abs/2212.09462, 2022.

[10] Alexander Quinn Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models. In ICML, volume 139 of Proceedings of Machine Learning Research, pages 8162–8171. PMLR, 2021.

[11] Robin Strudel, Corentin Tallec, Florent Altch ́e, Yilun Du, Yaroslav Ganin, Arthur Mensch, Will Grathwohl, Nikolay Savinov, Sander Dieleman, Laurent Sifre, and R ́emi Leblond. Self-conditioned embedding diffusion for text generation.CoRR, abs/2211.04236, 2022

[12] Shansan Gong, Mukai Li, Jiangtao Feng, Zhiyong Wu, and Lingpeng Kong.Diffuseq: Sequence to sequence text generation with diffusion models.CoRR, abs/2210.08933, 2022.

[13] ZhengfuHe,TianxiangSun,Kuanning Wang, Xuanjing Huang, and Xipeng Qiu. Diffusionbert: Improving generative masked language models with diffusion models.CoRR, abs/2211.15029, 2022.

[14] Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, and Songfang Huang.Seqdiffuseq: Text diffusion with encoder-decoder transformers.CoRR, abs/2212.10325, 2022.

[15] Lin Zheng, Jianbo Yuan, Lei Yu, and Lingpeng Kong.A reparameterized discrete diffusion model for text generation.CoRR, abs/2302.05737, 2023.

[16] Prafulla Dhariwal and Alexander Quinn Nichol. Diffusion models beat gans on image synthesis. In NeurIPS, pages 8780–8794, 2021.

[17] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj ̈orn Ommer.High-resolution image synthesis with latent diffusion models.In CVPR, pages 10674–10685. IEEE, 2022.

[18] Zhenghao Lin, Yeyun Gong, Yelong Shen, Tong Wu, Zhihao Fan, Chen Lin, Weizhu Chen, and Nan Duan. GENIE: large scale pre-training for text generation with diffusion model.CoRR, abs/2212.11685, 2022.

[19] Ting Chen, Ruixiang Zhang, and Geoffrey E. Hinton.Analog bits: Generating discrete data using diffusion models with self-conditioning.CoRR, abs/2208.04202, 2022.

更多推荐