分享

深度学习时代,分词真的有必要吗

 黄爸爸好 2019-08-07

重磅干货,第一时间送达

作者:老宋的茶书会

https://zhuanlan.zhihu.com/p/66155616

前言

中文数据集是我一直尽量避免的问题,但生活所迫,毕竟咱还是要在国内混江湖的,于是,最近开始研究研究深度学习模型在中文数据集上的各种表现, 但随之而来的一个问题是:我真的需要分词吗?香侬科技在 ACL2019 的一篇文章中告诉了我们这个答案,不一定适用于任何数据集,但具有很强的参考价值。

文章从语言模型、机器翻译、句子匹配和文本分类四个任务上进行对比,得出了字往往要比词更好的结论,这也与我同学前期做的一个文本分类项目的结果相符, 词级别的表现往往差强人意,而字往往能够给出较好的结果。

为何词的表现往往较差?

词级别之所以表现差往往有几个原因:

  • 首先,数据稀疏问题以及大量的OOV词。我们知道,在实际落地中,数据集往往并不大,考虑到数据标注本身是一个费钱,费力的工作,数据量不大的情况下, 由于词的数量十分巨大,且还在随时增加, 这意味着大多数中文词出现频率都非常小,这使得数据稀疏问题以及OOV问题十分严重,这极大限制了模型的学习能力。举例来说, 在CTB数据集中,通过jieba分词后,不同的词有50266个, 其中24458个词仅出现一次,占整个数据集的4.0%;有38889个词出现不多于四次,占数据集的10.1%, 这表明,词级别的数据十分稀疏,这使得模型很容易过拟合,这是因为单词越多,参数量越多。此外,由于词的数量实在太大,维护一个巨大的词表有点得不偿失,词越大,意味着OOV词的急剧增加,会极大限制模型的学习能力。

  • 其次, 分词会引入噪声。 由于分词工具和算法的局限性,并没有人类那么高的准确率, 这会引入一些噪声。最重要的是,如果你的词向量训练时所用分词工具与你在模型中使用的分词工具不同,那么这个噪声真的大了去了, 会把你的模型效果推入深渊。

  • 最后,分词所带来的收益并不明确。 尽管从直觉上看, ”词“的所携带的信息是比”字“更丰富,这是因为词相当程度上减轻了一词多义的情况, 但对于神经网络而言,会如何呢?神经网络能否根据复杂的过程来学习到这种字与字之间的组合方式, 如果可以,我们还有必要进行分词吗?

但分词真的无用吗?并非如此,在深度学习时代之前,有研究人员就探索了分词对于IR(信息检索)方面的作用,并提出,如果我们在 query 和 document 端都采用同样的分词手段,那么分词是很有帮助的。但在深度学习时代,这种提升是要打一个问号的, 如果看看 SQuAD 数据集或 MS MARCO数据集的话,就可以预见,其实通过阅读理解任务在 IR 领域的应用是能够获得传统的方法更佳的表现的, 而阅读理解任务,需要分词吗?这依旧回到问题的起点。

字级别也并非完美无缺

在字级别中, 一个很关键的问题就是一字多义, 词一定程度上减轻了这个问题,这也是在统计时代,分词存在的必要性。

而在深度学习时代,如果一字多义的问题能够通过预训练语言模型等这种高深度网络来解决,那么我个人认为,分词的时代或许就将完全过去。而在预训练语言模型上的探索将是大公司如Google, 百度等在接下来几年一个很重大的课题。其实,从 Bert 的表现上就可见一斑,Bert 完全舍弃了分词的过程,而是采用字为划分的粒度, 而 Bert 的表现大家有目共睹。

实验说明

文章从语言模型、机器翻译、文本分类和句子匹配四个方面来评估分词在深度学习的意义。

在语言模型任务中,同维度下,字级别的模型要显著优于词级别的模型。而如果采用 '字+词' 的模型,效果反而不如字级别的模型,但优于词级别的模型,这表明字级别的模型其实已经编码了语言模型任务所需的语言信息,加入词级别反而会损害表现。

在机器翻译任务中,依旧是字级别 > 字+词级别 > 词级别。

在句子匹配任务中,字级别的表现依旧显著优于词级别的表现。

在分类任务中,值得一提的是在 ChinaNews数据集上,词级别的表现略高于字级别的表现,且其余数据集效果相差也没有上述任务那么大,文章并没有给出解释, 我个人认为这是因为分类问题更依赖于 n-grams 信息的原因。

最后

这篇文章通篇就告诉了我们一点: 字级别在大多数情况下要优于词级别。但我更想从最新的预训练语言模型来看,如果说预训练语言模型能够解决一字多义问题, 那么分词真的是毫无必要了, 接下来或许就是探索如何融入先验知识如成语,歇后语,诗句等信息了。

Reference

[1] Is Word Segmentation Necessary for Deep Learning of Chinese Representations?

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多