【原】《基于混合方法的自然语言处理》译者序

DuerOS布道师 2021-09-23

展开全文

随着智能音箱走进千家万户，基于人工智能的产品与服务切实地来到了我们的身边。我们对智能音箱说话，问天气，定闹钟，听音乐，交流是如此的自然，这就是人工智能给我们带来的便利。

人工智能皇冠上的那颗明珠是自然语言处理，智能音箱则是自然语言处理的诸多应用之一。智能音箱背后的技术包括了自然语言处理中的语音识别（ASR）、自然语言理解（NLU）、自然语言生成、语音合成（TTS）等等。自然语言处理技术有很多流派，其中面向知识表示和基于数据驱动的两种方法是其中的主要代表。

在面向知识表示的方法中，知识图谱的应用相当广泛。知识图谱的概念诞生于2012年，由Google公司首先提出，最早应用于搜索引擎，是为了准确地阐述人、事、物之间的关系。

我们可以从不同的视角去审视知识图谱的概念。从Web应用来看，知识图谱就像简单之间的超链接一样，通过建立数据之间的语义链接，支持语义搜索；对于数据库来说，知识图谱是利用图的方式去存储知识的方法；从知识表示来看，知识图谱是采用计算机符号表示和处理知识的方法；对于人工智能来说，知识图谱是利用知识库来辅助理解人类语言的工具。在自然语言处理视角下，知识图谱就是从文本中抽取语义和结构化的数据。一般来说，知识图谱是为了描述文本语义，在自然界建立实体关系的知识数据库。

自然语言处理中基于数据驱动的方法主要包括传统的机器学习以及当前广受关注的深度学习。传统机器学习可以理解为手工特征+机器学习模型，而深度学习是从数据中自动学习特征，进而提高机器学习模型的性能。深度学习成功依赖3个条件，即算法模型，计算资源和足够的数据。大数据时代的来临，GPU的发展，尤其是神经网络相关工程理论的改进，使得深度学习在自然语言处理领域发挥着巨大的价值。其中，神经网络结构非常适合于逐层进行数据的抽象表达，也就是我们平常说深度学习，即深度神经网络。

对于工程师而言，妄议不同流派的口舌之争是没有意义的。我们需要解决现实研究领域中的问题，包括文本分类与聚类、文章标签与摘要提取、文本审核与舆情分析、机器翻译、阅读理解、问答系统与聊天机器人、搜索引擎、知识图谱、自然语言生成等等。无论是知识图谱，还是深度神经网络，都表现出了在不同领域的强大能力。

那么，知识图谱与神经网络的融合会是怎样的呢？进而，

神经网络方法如何扩展预先捕获的知识，明确表示为知识图谱呢？

基于知识的表示与基于神经网络的表示如何实现无缝集成呢？

如何检查和评估混合方法特征表示的质量？

混合方法如何能比单独的方案产生更高质量的结构化表示和神经网络表示呢？

.......

我们很荣幸得到这样一个特殊的学习机会，负责翻译了《基于混合方法的自然语言处理：神经网络模型与知识图谱的结合》一书。本书不仅为两个流派探索了融合的方向，而且还建立了一个混合自然语言处理的开放实验环境。数据，代码，实现的部署和方式都很符合工程师的口味，将自底向上的数据驱动模型和自顶向下的结构化知识图谱结合在一起，形成了一系列有趣的实践指南。

本书的翻译源自几个不同有趣灵魂和人生轨迹的碰撞。首先感谢华章出版社和刘锋老师的信任，把这样一个前沿技术领域的翻译工作交给了我们。感谢家人对我们支持，让我们把有限的时间更多地投入到译作中。特别感谢百度的徐犇老师，在百忙之中审阅了全文，提出了很多建设性的意见和建议。翻译是一项特殊的学习和创作过程，字里行间包含了译者的理解和选择。尽管小心谨慎如履薄冰，终因译者水平有限，本书翻译错漏之处在所难免，望诸位读者海涵并指正。