分享

冯志伟:基于平行语料库处理方法之源头及其在计算语言学中的应用

 文化艺术界 2016-04-28
冯敏萱博士的《汉英平行语料库的平行处理》一书,以汉英双语平行语料库(parallel corpus)为研究对象,重点探讨了利用平行处理技术来加工汉英平行语料,排除双语各自语言中的歧义的理论与方法。这种平行处理思想的依据是达甘(Ido Dagan) 等1991年提出的“两种语言的信息要比一种语言丰富”(Two Languages Are More Informative Than One)的主张,其目标是尽可能地利用另一语言来消除源语言较难解决的歧义问题。作者采用规则与统计相结合的技术来实现平行处理,在对双语语料统计的基础上,归纳规则,提取词例知识,获得了平行处理的宝贵的语言资源,使用了句珠层、语篇层、语料库层及外部知识层等四个层次的语言资源来进行平行处理,在词汇分析、词性标注、词义标注、句法分析等方面进行排歧,都取得了良好的效果。本书的实践说明,基于平行语料库的平行处理方法是一种行之有效的自然语言处理方法。
这种基于平行语料库的研究方法源远流长。学者们在解读古文字的研究中,就使用过这种基于平行语料库的研究方法。解读密码(decipherment)是古典文献研究的一个重要内容,历代学者们曾经依靠自己的聪明才智出色地解读了不少古代的铭文,或者通过铭文中已知的部分来解读铭文中未知的文字。罗塞塔石碑(Rosetta Stone)上古代埃及文字的解读,就是使用平行语料库方法来解读密码的一个成功的范例。
罗塞塔石碑共刻有同一段诏书的三种语言版本,是用埃及象形文字(Egyptian hieroglyphs,又称为圣书体,代表献给神明的文字),埃及通俗文字(Egyptian Demotic,又称草书体,是古代埃及平民使用的文字)和古希腊文(Greek,代表统治者的语言,这是因为当时的埃及已臣服于希腊的亚历山大帝国之下,来自希腊的统治者要求统治领地内所有的此类文书都需要添加希腊文的译版)三种不同的文字写成的,石碑刻于公元前196年,现藏于大英博物馆。我在2001年访问大英博物馆时,曾经拍下了罗塞塔石碑的如下照片,读者从照片左侧可以清晰地看到这三种语言的版本,上层是埃及象形文字,中间是埃及通俗文字,下层古希腊文;照片的右侧是埃及象形文字的细部。

大英博物馆所见罗塞塔石碑

在公元4世纪结束后不久,尼罗河文明式微,不再使用埃及象形文字和埃及通俗文字,这两种文字的读法与写法都彻底失传了,虽然后来有许多考古专家与历史学专家极尽所能来研究,却一直解读不了这些神秘文字的结构与用法。直到1799年法国远征军在埃及的Rosetta(罗塞塔)发现了罗塞塔石碑,才使埃及古代文字的解读工作获得了突破性的进展。罗塞塔石碑独特的三语对照写法,意外成为解码的关键,因为这三种语言中的古希腊文是近代人类可以阅读的,利用这个关键来比对和分析碑上其他两种语言文字的内容,就可以了解这些失传的古代语言的文字与语法结构。在19世纪初期的英国物理学家汤马斯·杨(Thomas Young)和法国学者让-佛罕索瓦·商博良(Jean-Fran?ois Champollion)的努力下,学者们依靠已知的古希腊文来解读未知的埃及象形文字和埃及通俗文字这两种埃及的古代文字,在1822年终于揭开了埃及古代文字的神秘面纱,成功地解读了埃及古代文字。
我们认为,罗塞塔石碑上面的三种文字就像三个彼此对应的并行语料库(parallel corpus),罗塞塔石碑也许就是世界上最早的三种语言的平行语料库。罗塞塔石碑的解读,是使用平行语料库解读密码的成功范例。
可惜,这样的成功范例当时在语言学研究中并没有得到推广,绝大多数语言学家仍然使用基于语感和个人语言经验的内省方式来研究语言。这种情况,在20世纪90年代初才发生了明显的改变。目前,双语平行语料库的建设已经引起了国内外语言学界的普遍重视,2011年国家社会科学基金重大招标课题中,就设有大规模英汉双语平行语料库的课题。这个课题现在已经正式立项了。
计算语言学兴起于20世纪50年代。20世纪90年代以前,从事计算语言学研究的绝大多数学者,都把自己的目标局限于某个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法—语义分析。尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但是,要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然语言处理系统所需要装备的语言知识来看,其数量之浩大、颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、表征和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理问题。
1990年8月,在芬兰赫尔辛基举行的第13届国际计算语言学会议为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”。这说明,实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标,计算语言学正面临“战略转移”(strategic transit)的关键时刻。为了实现这样的战略转移,需要在理论、方法和工具等方面实行重大的革新。1992年6月,在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)将会议主题定为“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”(rationalism),就是指以生成语言学为基础的方法;所谓“经验主义”(empiricism),就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。
当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由“生语料”变成“熟语料”,以便于人们从中提取丰富的语言知识。
可以看出,计算语言学当前面临着的这一场战略转移的关键是知识的获取方式和方法:从依靠“内省”方式转向依靠“语料”的方式,从“基于规则”(rule-based)的方法转向“基于语料库”(corpus-based)的方法,也就是“基于统计”(statistics-based)的方法。
随着战略转移的深入,统计方法已经逐渐成为计算语言学的主流方法。
面对计算语言学的战略转移,我觉得,语言学在获取知识的方式方法也应当进行一场战略转移。
与战略转移以前的计算语言学相似,传统语言学家获取语言知识的方法基本上也是通过“内省”(introspection)进行,由于自然语言现象充满了例外,治学严谨的学者们提出了“例不十,不立法”(黎锦熙)以及“例外不十,法不破”(王力)的原则,这样的原则貌似严格,实际上却是片面的。在成千上万的语言数据中,只是靠十个例子或十个例外就来决定规则的取舍,难道真的能够保证万无一失吗?显然是不能保证的。因此,“例不十,不立法;例外不十,法不破”的原则只是一个貌似严格的原则,实际上是一个很不严格的原则。
在语料库出现之后,传统语言学的这个原则受到了严重的挑战!
语料库是客观的、可靠的语言资源,语言学研究应当依靠这样的宝贵资源。语料库中包含着极为宝贵的语言知识,我们应当使用新的方法和工具来获取这些知识。当然,前辈语言学家数千年积累的语言知识(包括词典中的语言知识,语法书中的语言知识)也是宝贵的,但由于这些知识是通过这些语言学家们的“内省”或者“洞察力”发现的,难免带有之主观性和片面性,需要我们使用语料库来一一地加以审查。英国著名语料库专家辛克莱(John Sinclair)一针见血地指出:“生造的例子看上去不管是多么地可行,都不能作为使用语言的实例”,他大声疾呼:“我们总不能靠造几朵人造花来研究植物学吧!”记得几年前在匈牙利的巴拉顿湖畔的美丽城市蒂哈尼(Tihany)开会的时候,在一次闲谈中,我对辛克莱说:“我们也同样不能根据赛璐珞造的玩具狗Rex来研究动物学。”当时他对于我的意见表示赞同。
如果搞语言研究不使用语料库或概率,很可能就只能使用自己根据“内省”(introspection)得到的数据,这是“第一人称数据”(first person data);在使用第一人称数据时,语言研究者既是语言的数据的分析者,又是语言数据的提供者,有人把它称为“拍脑袋”得出的数据。或者使用根据“问卷调查”或“查词典”之类的“诱导”(elicitation)得到的数据,这是“第二人称数据”(second person data);在使用第二人称数据时,语言研究者不充当数据的提供者,数据需要通过“作为第二人称的旁人”的诱导才能得到。如果使用语料库的数据作为语言研究的数据来源,那么,语言研究者就不再充当数据的提供者或诱导者,而是充当数据的分析者了,这种“观察”(observation)得到的数据是“第三人称数据”(third person data)。
       这是多年前威窦荪(H. Widdowson)在“The limitation of Linguistics applied”一文中提出的看法,我觉得这种看法很有价值,值得我们思考。
        当然,如果使用第三人称的观察数据,语言学研究者同时也可以充当数据的“内省者”或“诱导者”,所以,第一人称和第二人称与第三人称是难以分开的。这也就是我不反对“拍脑袋”这种第一人称数据的原因。不过,从总体上说来,第三人称数据显然是比较科学的。冯敏萱博士在本书中所用的就是“第三人称数据”。
乔姆斯基(N. Chomsky)的生成语法采用的是第一人称数据,他自己亲自来充当“理想的说话者”,由于他具有非凡的智慧,也可以取得卓越的成就;心理语言学、实验语音学采用的是第二人称数据,也取得了不少的成果,而我们现在则提倡第三人称数据,当然,与此同时,我们仍然要充分地尊重第一人称数据研究者和第二人称数据研究者的智慧和洞察力,我们并不反对第一人称的内省法和第二人称的诱导法。第一人称的“拍脑袋”方法固然会产生主观性,但是,脑袋拍得好也并不容易,语言研究中研究者的主观性往往显示了研究者的智慧和洞察力,不可忽视,所以,前辈语言学家的卓越的智慧和洞察力仍然是值得我们称道的。
不过,我们认为,语言学的一切知识,不论是过去通过“内省”(introspection)或“诱导”(elicitation)得到的知识,最终都有必要放到语料库中来“观察”(observation)和“检验”(verification),决定其是正确的,还是片面的或者错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在。
我们可以预见,语言学研究战略转移(strategy transit)的时代必将到来!一种新的“基于语料库”(corpus-based approach)的研究方式或者“语料库驱动”(corpus-driven approach)的研究方式将逐渐地代替传统的依靠“内省”(introspection)和“诱导”(elicitation)的研究方式,“内省”和“诱导”的研究方式今后很可能只是基于语料库研究方式或语料库驱动研究方式的补充,而不能是语言学研究的主流。当然,这种基于语料库的研究方式或者语料库驱动的研究方式离不开语言学家的对于语言现象的“洞察力”(insight),我们决不能忽视理性思维的重要作用。
传统语言学正在面临战略转移的重要时刻,我们应当从高度的历史责任感出发,敏锐地认识到这个战略转移的重要时刻或迟或早总会来临,为此而调整我们的研究方法和研究计划,从而为世界的语言学宝库做出我们中国学者应有的贡献。

本文选自《汉英平行语料库的平行处理》冯序


汉英平行语料库的平行处理

作者:冯敏萱 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多