中文信息处理的主流技术是什么?

素行 2007-05-20

展开全文

中文信息处理的主流技术是什么?

在自然语言处理（NLP）上，从小规模受限语言处理走向大规模真实文本处理，是一个意义深远的里程碑式的转折。
不管经过多少时间，语料库方法和统计语言模型依然是当前中文信息处理的主流技术。

作者简介：

----黄昌宁

---- 1961年毕业于清华大学自动控制系，现任微软亚洲研究院高级研究员兼博士后工作站负责人，此前他是清华大学计算机系的教授和博士生导师，长期领导清华大学计算语言学课题组的科研与教学工作。

从20世纪50年代初机器翻译课题被提出算起，自然语言处理（NLP）的研发历史至少也有50年了。90年代初,NLP的研究目标开始从小规模受限语言处理走向大规模真实文本处理。把这个新目标正式列入大会主题的是1990年在赫尔辛基举行的“第13届国际计算语言学大会”。那些只有几百个词条和数十条语法规则的受限语言分析系统，通常被业内人士戏称为“玩具”，不可能有什么实用价值。政府、企业和广大计算机用户期盼的是像汉字输入、语音听写机、文-语转换(TTS)、搜索引擎、信息抽取(IE)、信息安全和机器翻译（MT）那样的、有能力处理大规模真实文本的实用化系统。

正是基于对这个里程碑式转折的关注，笔者在1993年就列举了四种大规模真实文本处理的应用前景:新一代信息检索系统;按客户要求编辑的报纸;信息抽取，即把非结构化的文本转化为结构化的信息库;大规模语料库的自动标注。值得庆幸的是，今天所有这四个方向都有了实用化或商品化的成果。

尽管全世界都把大规模真实文本处理看做是NLP的一个战略目标，但这不等于说受限领域的机器翻译、语音对话、电话翻译和其他一些基于深层理解的自然语言分析技术或理论研究，就不应当再搞了。目标和任务的多样化是学术界繁荣昌盛的一个标志。问题是要考虑清楚NLP的主战场在哪里，我们的主力应当部署在哪里。

中文难办吗？

谈到中文信息处理所面临的重大应用课题，如企业和广大计算机用户所期盼的汉字输入、语音识别等，大家似乎并没有什么分歧。但是当讨论深入到实现这些课题的方法或技术路线时，分歧马上就泾渭分明了。第一种意见认为，中文信息处理的本质是汉语理解，也就是要对汉语真实文本实施句法-语义分析。持这种意见的学者主张，以往在中文信息处理中使用的概率统计方法已经走到了尽头，为了在理解或语言层面上解决中文信息处理问题，就必须另辟蹊径，这条蹊径便是语义学。据说这是因为汉语不同于西方语言，汉语的句法相当灵活，汉语本质上是一种意合语言等。

与上述意见相对立的观点是:前面提到的绝大多数应用系统（MT除外）其实都是在没有句法-语义分析的情况下实现的，因此谈不上“理解”。如果一定要说“理解”，那么只是用图灵实验来证实的所谓“理解”。

上述双方争论的焦点是方法，但目标和方法通常是密不可分的。如果我们同意把大规模真实文本处理作为NLP的战略目标，那么实现这一目标的理论和方法也必然要跟着变化。无独有偶，1992年在蒙特利尔召开的“第四届机器翻译的理论和方法国际会议(TMI-92)”宣布大会的主题是“机器翻译中的经验主义和理性主义方法”。这就是公开承认，在传统的基于语言学和人工智能方法（即理性主义）的NLP技术以外，还有一种基于语料库和统计语言模型的新方法（即经验主义）正在迅速崛起。

NLP的战略目标和相应的语料库方法都是从国际学术舞台的大视野中获得的，中文信息处理自然也不例外。那种认为中文文本处理特别困难，以至要另辟蹊径的观点，缺少有说服力的事实根据。拿信息检索(IR)来说，它的任务是从一个大规模的文档库中寻找与用户的查询相关的文档。怎样表示文档和查询的内容，以及如何度量文档和查询之间的相关程度，就成为IR技术需要解决的两个基本问题。召回率和精确率则是评价一个IR系统的两个主要指标。由于文档和查询都是用自然语言表述的，这个任务可以用来说明中文和西方语言所面临的问题和所采用的方法其实是十分相似的。一般来说，各文种的IR系统都用文档和查询中的词频(tf)和倒文档频率(idf)来表示文档和查询的内容，所以本质上是一种统计方法。

世界文本检索大会TREC (http://trec./ ) 的最大特点是通过提供大规模训练语料和统一评测方法来支持IR技术的研发。研究团队必须通过大会的统一评测并名列前茅，才能获准到会上来做报告。1992年起TREC每年举办一届大会，并得到美国国防部（DARPA）和国家标准技术局（NIST）的资助。会议对包括中文、日文在内的多文种文档库开展了IR评测。结果表明，中文IR并没有因为存在分词问题就比其他文种做得差，而且迄今没有证据表明各语种的NLP，包括基于概念的或基于句法-语义分析的技术，能明显提高IR系统的性能。

什么是主流技术？

语料库方法和统计语言模型不但没有过时，而且在可比的统一评测中被证明是当前各国语言信息处理的一种主流技术。

1. N元模型

设w_i是文本中的任意一个词，如果已知它在该文本中的前两个词 w_i-2w_-1，便可以用条件概率P(w_i|w_i-2w_-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说，如果用变量W代表文本中一个任意的词序列，它由顺序排列的n个词组成，即W=w₁w₂...w_n，则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式，P(W)可展开为：

P(W) = P(w₁)P(w₂|w₁)P(w₃| w₁ w₂)...P(w_n|w₁ w₂...w_n-1)

不难看出，为了预测词w_n的出现概率，必须知道它前面所有词的出现概率。从计算上来看，这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关，问题就可以得到极大的简化。这时的语言模型叫做三元模型 (tri-gram):

P(W)≈P(w₁)P(w₂|w₁)∏_i(i=3,...,nP(w_i|w_i-2w_-1)

符号∏_{i i=3,...,n} P(...) 表示概率的连乘。一般来说，N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有

P(wi|w_i-2w_i-1) ≈ count(w_i-2w_i-1w_i) /count(w_i-2w_i-1)

式中count(...) 表示一个特定词序列在整个语料库中出现的累计次数。

统计语言模型有点像天气预报中使用的概率方法，用来估计概率参数的大规模语料库好比是一个地区历年积累起来的气象记录。而用三元模型来做天气预报，就好比是根据前两天的天气情况来预测今天的天气。天气预报当然不可能百分之百准确，但是我们大概不会因此就全盘否定这种实用的概率方法吧。

2. 语音识别

语音识别作为计算机汉字输入的另一种方式越来越受到业内人士的青睐。所谓听写机就是语音识别的一种商品。那么当前商品化的听写机采用的是什么技术呢？

其实，语音识别任务可视为对以下条件概率极大值的计算问题：

W*= argmax_W P(W|speech signal)

= argmax_W P(speech signal|W) P(W) / P(speech signal)

= argmax_W P(speech signal|W) P(W)

式中数学符号argmaxW 表示对不同的候选词序列W计算条件概率P(W|speech signal)的值，从而使W*成为条件概率值最大的词序列。它也就是当前输入语音信号speech signal所对应的输出词串了。

公式第二行是利用贝叶斯定律转写的结果，因为条件概率P(speech signal|W)比较容易估值。公式的分母P(speech signa ) 对给定的语音信号是一个常数，不影响极大值的计算，故可以从公式中删除。在公式第三行所示的结果中，P(W)叫做统计语言模型；P(speech signal|W) 叫做声学模型。

据调查，目前市场上中文和英文的听写机产品都是用词的三元模型实现的, 几乎完全不用句法-语义分析手段。这说明不同语言的产品技术往往是相通的。没有证据表明，中、英两种语言的听写机在性能指标上有显著的差异。所以那种断言中文信息处理一定比西方语言困难，实现中文信息处理必须另辟蹊径的说法，其实是站不住脚的。

三元模型（或一般的N元模型）只利用了语言的表层信息（或知识），即符号（字、词、词性标记等）序列的同现信息。谁也没有说它是十全十美的。在这一领域中，下一个研究目标应当是结构化对象（如句法树或语义框架）的统计模型。当然能做到语言理解是了不起的成果，它肯定会比目前这种统计语言模型强得多，这是不争的事实。问题是目前国内外还没有哪一种语言的句法-语义分析系统可以胜任大规模真实文本处理的重任。因此，对于世界各国的语言来说，当前的主流技术仍是语料库方法和统计语言模型。

3. 词性标注

至少像短语结构文法这样一类的语法规则是建立在词类基础上的。无怪乎语言学界有句行话说，没有词类就没法讲语法了。所以在自然语言的句法分析过程中，大概都有一个词性标注的阶段。不难理解，汉语的自动分词和词性标注的精确率，将直接影响到后续的句法分析结果。据观察，在汉语句法分析结果中，有高达60%的分析错误来源于分词和词性标注的错误。

在英语的词库中约 14% 的词形(type)具有不只一个词性，而在一个语料库中，总词次数(tockens)中约 30% 是兼类词。从这个统计数字中可以估计出词性标注任务的难度。历史上曾经先后出现过两个方法迥异的英语词性标注系统：TAGGIT系统拥有3000条上下文相关规则，而CLAWS系统完全采用概率统计方法。两个系统各自完成了100万词次的英语语料库的自动词性标注任务。评则结果（见下表）表明，采用概率统计方法的CLAWS系统的标注精度达到96%，比TAGGIT系统提高了近20个百分点。经过改进的CLAWS系统日后承担了英国国家语料库BNC一亿条英语词的词性标注任务。

具体来说，CLAWS系统采用的是词类标记的二元模型。如果令 C = c₁...c_n 和 W = w₁...w_n分别代表词类标记序列和词序列，则词性标注任务可视为在已知词序列W的情况下，计算如下条件概率极大值的问题：

C*= argmax_C P(C|W)

= argmax_C P(W|C)P(C) / P(W)

≈ argmax_C ∏_{i i=1,...,n}P(w_i|c_i)P(c_i|c_i-1 )

P(C|W) 表示：已知输入词序列W的情况下，出现词类标记序列C的条件概率。数学符号argmax_C表示通过考察不同的候选词类标记序列C, 来寻找使条件概率P(C|W) 取最大值的那个词序列W*。后者应当就是对W的词性标注结果。

公式第二行是利用贝叶斯定律转写的结果，由于分母P(W) 对给定的W是一个常数，不影响极大值的计算，故可以从公式中删除。接着对公式进行近似。首先，引入独立性假设，认为词序列中的任意一个词wi的出现概率近似，只同当前词的词性标记ci有关，而与周围（上下文）的词类标记无关。即词汇概率

P(W|C) ≈ ∏_{i i=1,...,n}P(wi|ci )

其次，采用二元假设，即近似认为任意词类标记 c_i的出现概率只同它紧邻的前一个词类标记c_i-1有关。因此有:

P(C) ≈∏_{i i=,...,n} P(c_i|c_i-1)

P(c_i|c_i-1) 是词类标记的转移概率，也叫做二元模型。

上述这两个概率参数也都可以通过带词性标记的语料库来分别估计：

P(w_i|c_i) ≈ count(w_i,c_i) / count(c_i)

P(c_i|c_i-1) ≈ count(c_i-1c_i) / count(c_i-1)

顺便指出，国内外学者用词类标记的二元或三元模型实现的中、英文词性自动标注都达到了约95%的标注精确率。

评测为什么是惟一的评判标准

有评测才会有鉴别。评判一种方法优劣的惟一标准是相互可比的评测，而不是设计人员自己设计的“自评”，更不是人们的直觉或某个人的“远见”。近年来，在语言信息处理领域，通过评测来推动科学技术进步的范例很多。国家“863计划”智能计算机专家组曾对语音识别、汉字（印刷体和手写体）识别、文本自动分词、词性自动标注、自动文摘和机器翻译译文质量等课题进行过多次有统一测试数据和统一计分方法的全国性评测，对促进这些领域的技术进步发挥了非常积极的作用。

在国际上，美国国防部先后发起的TIPSTER 和 TIDES两个和语言信息处理相关的计划，就被称为“评测驱动的计划”。它们在信息检索(TREC)、信息抽取（MUC）、命名实体识别（MET-2）等研究课题上，既提供大规模的训练语料和测试语料，又提供统一的计分方法和评测软件，以保证每个研究小组都能在一种公平、公开的条件下进行研究方法的探讨，推动科学技术的进步。TREC、MUC和MET-2等会议所组织的多文种评比活动也有力地说明，其他语言采用并证明有效的方法，对中文也一样适用，不同文种应用系统的性能指标大体相当。固然，每种语言都有它自己的个性，然而这些个性不应当被用来否定语言的共性，并在事实不足的情况下做出错误的判断。

为了推动中文信息处理的发展，让我们拿起评测这个武器，扎扎实实地研究其适用技术，不要再想当然了。建议政府科研主管部门在制定项目计划时，至少要在一个项目的总经费中拿出10%左右的拨款用于资助该项目的评测。没有统一评测的研究成果，终究不是完全可信的。

（计算机世界报第24期 B11、B12、B14）