分享

语块自动抽取:基于语料库的简单定心语块抽取研究

 許學仁 2019-06-26
小编说

    第 20 届 CLSW会议 (CLSW-2019)将于 2019 年 6月 28 至 30 日在北京召开 ,此外小型研讨会将与CLSW-2019会议同时举行。小编在前线也网罗了一些会上自己人的研究内容安利给大家。

    第二篇我们要推出的是《基于语料库的简单定心语块抽取研究》,这篇论文在BCC系统的支持下,从语言结构规则出发归纳出简单定心语块的内部结构类型,制订了形式化的语块知识检索规则,实现了语块知识获取的自动化。对此研究感兴趣的朋友您去不了现场,可以通过平台与作者交流。

基于语料库的简单定心语块抽取研究

01

任务说明

从语言结构规则出发,探索从大规模语料中自动抽取简单定心语块知识的方法。

02

简单定心语块的界定与构成分析

2.1 简单定心语块的界定

简单定心语块:句法结构上无嵌套的、具备二元搭配性特征的、高频稳态出现的定心结构。

“简单”在这里主要指句法结构非嵌套。例如,下面两组例子中,1)中都是简单定心语块;2)中成分嵌套,都不是简单定心语块。

1a. 宏伟 建筑    

     b. 远大 前程      

     c漂亮 [花朵       

2d. 一件美丽的衣服

     e. 美丽的鞋子和帽子

2.2 简单定心语块的构成分析

    通过考察并统计宾州树库中词数为2NP-OBJ[1]标记语言单元内部词性序列以及词数为3且包含定中形式标记“的”的NP-OBJ对应的词性序列,结合研究学者对定心结构内部构成的归纳和判定,将高频出现的简单定心结构内部词类序列归为以下11类:

表1 常见简单定心语块词类序列


词类序列[2]

实例

1

n n

人民福祉;公司员工

2

a n

锦绣前程美丽的花朵

3

b n

大型比赛旧式手机

4

v n

提出的问题合作情况

5

q n

本书;匹马

6

r n

这个民族;其他名称

7

s/t n

边境贸易;今日热点

8

n v/a

语法研究;社会的稳定

9

n/s/t f

桥头附近;冬天的尽头

10

n/s s

父母身边;活动现场

11

n/t t

昨天上午;周一的早上


[1] 宾州树库的标注集中,“NP”是名词短语的标记符号,“OBJ”代表直接宾语。“NP-OBJ”表示充当直接宾语的名词性短语。

[2] 词性符号说明:n -- 名词;a -- 形容词;b -- 区别词;v -- 动词;q -- 量词;r -- 代词;s -- 处所词;t -- 时间词;f -- 方位词。

03

简单定心语块抽取

3.1 语块抽取系统及抽取规则

在BCC高级检索系统下,利用定制检索式进行语料抽取。其检索式形如:

Query{cond1;cond2;...;condi;print($i)}

“Query”表示基本检索式,用于书写目标搭配的词类序列,也可引入上下文标点符号的限制;“{}”中的条件语句对查询内容进行音节数或句法、语义子类信息的限定;输出语句对输出内容进行指定。检索式中被限定的部分需要用“( )”括起来,根据“( )”出现的顺序,可使用“$”符号 序号取得该部分内容,进行条件限定或输出限定。第一个“( )”中的成分用“$1”表示,第二个“( )”中的成分用“$2”表示。一个检索式中只能对两处进行限制。

  例如,检索式“(a)的(n){len($1)=2; len($2)=2;print($1 $2)}”中,“(a)的(n)”表示要检索的是形如“形容词 的 名词”的搭配。“{}”中的“len($1)=2”表示限制形容词为双音节,“len($2)=2”表示限制名词为双音节,“print($1 $2)”表示输出“形容词 名词”的组合。

3.2 简单定心语块抽取算法

3.2.1 检索式储存

    用检索式描写各类简单定心语块的结构特征,将两百余条简单定心语块检索式存入指定文件,以备后期程序处理。

3.2.2 利用BCC提供的WebAPI进行批量抽取

    通过编写Perl程序,读入已经存储在指定文件中的检索式,然后通过云服务的方式对BCC进行调用以抽取搭配知识结果。

3.2.3 同类定心语块抽取结果的累加

    例如,“bn”(区别词 名词)类型的定心语块有15条检索式,其中“主要 内容”的搭配在检索结果中累计出现5次,则记为“(主要,内容,5 bn)”。

3.2.4 对同一个修饰词W1的搭配实例W2进行由高到低排序

    依照齐夫率(Zipf’s Law)对定心语块搭配频次进行阈值的限定。将某个修饰词W1下的搭配Wi实例按照频次从高往低进行排序,计算Freq1 Freq2 …. Freqi=80%×Total_Count。将阈值定在Freqi部分,频次大于该阈值的为抽取的搭配结果。

1 简单定心语块抽取算法图示

3.3 抽取结果评估

参照形容词词频,采用分层抽样的方法选取100个双音节形容词对其“形名”类型语块进行人工交叉验证。两位语言学专业的硕士生对抽取出来的搭配情况进行判定,两者一致判定为定心结构时,即认定该搭配正确,否则错误。100个抽样形容词的定心语块的平均正确率为82.63%。

04

结语

本文在BCC系统的支撑下,从语言学本体角度出发总结归纳了简单定心语块的内部构成类型,然后制定形式化的语块知识检索规则,从而实现语块知识获取的自动化。在未来的工作中,试图采用融合的策略进行语块搭配的认定。如分别用本文提出的方法、互信息度量的方法对语块搭配进行判定,然后选择两种方法共同认定的语块搭配作为最后正确的结果

05

关于作者

王诚文,北京语言大学博士,语言智能与技术专业

张政北京语言大学硕士语言学及应用语言学专业

饶高琦,北京语言大学汉语国际教育研究院硕士生导师

荀恩东,北京语言大学信息科学学院博士生导师

注:本论文将于6月30日下午14:15至14:30北京国际温泉酒店第十会议室进行口头报告

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多