【原】中文语义识别技术发展现状

数据挖掘部落 2013-03-17

展开全文

一、中文语义识别概述

计算机科学领域的一个重要分支就是“人工智能”，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

在自然语言处理方面，如何让计算机识别和理解人类的语言，并且模拟人类思维方式去思考、推理问题，是完成“人工智能”这个人类伟大理想的重要举措。不管是中文，英文语言环境中，除了“你”“我”“他”等这类个别的例外以外，词组才是人类表达语义的最小单位。

中文由于其深厚而且博大精深的文化底蕴，“长字符串”形式的书写方式使得计算机在理解中文方面远比理解英文要困难很多。因为英文本身就是以“词”为最小的存在单位，书写方式是以空格区分每个词分割，所以计算机能通过空格来很好的识别英文的一个最小语义表达。

中文的复杂程度、表达语义的能力远远高于英文，同样一个词在不同的语用、语境下表达的意思是完全不同的。比如“乒乓球拍卖完了”，可以理解为“乒乓球_拍卖完了”、也可以是“乒乓球拍_卖完了”，再比如“XXX行贿中国石油公司”和“中国石油公司行贿XXX”。同样的内容不同的分割、不同的顺序，表达的意思就完全不一样。所以若想让计算机识别中文文本，第一步要做的就是告诉计算机在一句话中，哪几个字是一个词组。而这就是分词的过程。而由于中文具有非常强的歧义性，所以准确分词技术是一项非常复杂和具有挑战性的工作。

我们看一个广泛流传的民间故事：

“民间流传着这样一个故事：某人去朋友家做客，正好天下雨了，客人就写了十个字：“天下雨，留客天，留我不留？”主人没有直接回答，而是把这10个字的标点改了改，变成了：“下雨天留客，天留我不留。”这等于无声的逐客令了。然而，客人不甘心淋着雨回去，于是又把标点改了一下，主人没有办法，只好让他留了下来。

你知道客人是怎么改的吗？请改一下试试。”

这句话到底有几个意思呢？我们看：

1、下雨天留客，天留，我不留。

2、下雨天留客，天留我不留。

3、下雨天，留客，天留，我不留。

4、下雨天，留客，天留我，不留。

5、下雨天留客，天留我不？留！

6、下雨天，留客天，留我不留？

7、下雨天，留客天，留我？不留！

8、下雨天留客，天！留我不？留！

9、下雨天，留客！天！留我不留？

以上就是一个老祖宗留下的一个非常好的中文分词实例。

常见的中文歧义类型有：

1、组合歧义：在分词过程中是最常遇到的，比如：“美国花旗银行”中的“国花”，“苏联想从边境撤军”中的“联想”，“技术和服务”中的“和服”等等非常多。

2、人名歧义：“宁静”、“杨柳”、“黎明”等等，语境歧义

3、语用歧义：“牦牛肉不好吃”，其中的“好”有两种意思，a）“味道不好吃”的意思；b）“不容易吃”的意思；

4、语境歧义：两米二六个头的姚明。并不是说姚明有“26个脑袋”

5、真歧义：真歧义是最难以区分的，包括我们人类若没有上下文语境的判断和知识积累，也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。

6、分词颗粒问题：“中国人民解放军”可以是一个词，也可以是“中国人民解放军”在不同的应用情景下，分词颗粒度是完全不同的。分词颗粒度的不同，造成语义的完全不同。

7、分词具有领域性：在医药、化工领域的中文表达方式和文字特点与其他领域完全不同，互联网网友的用词方式跟其他领域完全不同。

8、.......更多...

这类歧义在中文中还有更多更多，若不能正确的分词，计算机就无法正确识别中文文本的内容。

二、中文语义识别技术领域技术发展现状

中文深厚的文化底蕴不是外国人可以理解的，甚至中国人自己也不是很轻易的能够说清楚，所以中国的中文语义识别技术代表着世界的领先水平。中国很多的高等院校、中科院、商业企业从几十年前就开始研究中文的语义识别问题，尤其是近几年随着互联网的发展，更是促使更多的商业企业投入到这一领域中来。

该领域技术水平可以分为以下几个阵营：

第一阵营：互联网通用领域中文识别技术领先企业：在互联网通用领域技术最为领先的是海量信息技术有限公司，该公司是最早投入该领域科研的商业企业，从1999年开始从事中文语义研究和商业应用，是目前中文语义识别领域最领先的企业。微软、美国苹果公司、Autonomy、Sybase、华为、腾讯等众多知名技术厂商都是海量的客户。

第二阵营：搜索引擎领域中文语义识别技术领先企业：中文分词是百度、谷歌等搜索引擎核心，搜索引擎的准确性完全依赖于中文分词的准确性。百度从2001年开始自行研发了中文分词系统，虽然百度的中文分词系统在搜索引擎上应用效果还不错，其结果具有很强的专业应用性。例如“中国人民解放军”这个词，我们在做常规语义识别时需要分成一个词若分成多个词语义就产生了变化，而搜索引擎应用时就必须分成多个词。

谷歌2002年进入中国市场的时候曾经想收购海量信息没有成功后来收购了国外一家做中文分词的公司，他们的做法是不考虑语义、语用、语境等因素，将一篇文章正向和反向的每2个字分成一个词，找出重合的最大合集，再配以谷歌的知识网技术来辅助搜索结果的矫正。这种方法虽然效率比较高，技术难度也较低，但是比如“演员宁静”和“宁静的夏天”中两个“宁静”的词性是完全不同的。

第三阵营：互联网通用领域的科研机构：中科院、清华、北大、微软亚洲研究院、哈工大、东北大学等科研高校机构研究中文分词几十年，只有中科院面向商用市场推出了分词产品，但分词效果要低于海量分词。其他高校到目前为止没有推出可商用的分词产品。

第四阵营：互联网通用领域的商业机构：方正、托尔斯、盛大研究院等机构，是2005年以后才从事分词研究的企业，分词结果用于他们企业自身业务领域做软件系统项目效果还基本可用（在系统层、应用层对分词效果进行了矫正），分词产品用于其他领域的效果更是差强人意。

第五阵营：近几年新进企业：最近一两年互联网大量的商业企业招募人员开始投入到分词研究，目前尚没有结果推出。

三、自然语言识别的发展方向

如下图所示：在计算机科学的最开始阶段，计算机无法显示中文、输入中文，在“字符层”有了五笔字型、汉卡等系统计算机终于可以输入中文显示中文了；在“词法层”，有了中文分词、全文检索、关键词提取系统，也正是在这一时期出现了百度、谷歌等搜索巨头；再往上一层是“实体层”，一句话中的人名、地名、机构名、时间等词性的词语，属于实体词是表达语义的重要组成部分；例如“王金山不是西门子上海分公司的员工”，其中“王金山、西门子、上海”就是实体词，是这句话要表达语义的主体。再往上就是“句法层”在实体层计算机理解了一句话中独立的实体词的含义，但是相互之间的逻辑关系不知道，而句法层计算机就能理解一句话要表达的基本含义可以理解一句话了。而“语义层”则是计算机能将一篇文章的每句话的意思串联起来，可以理解一篇文章，这时候才是真正达到了自然语言理解的境界，实现了人工智能的梦想。

目前，只有海量信息达到了实体层的阶段，推出了一个叫“保10洁互联网社区净化服务”的产品，能通过语义的方式帮助论坛、社区识别网友发布的UGC内容是不是垃圾信息、是哪类垃圾信息。其他阵营的企业还处在词法层阶段。