分享

“语料库研究学术源流考”干货分享

 静心图书馆626 2018-02-07

2018-02-01 外语学术科研网


2018年1月29日傍晚19:00—20:00,第40期“我来读文献”活动【线上论坛】成功举行,论坛嘉宾河南师范大学刘国兵教授与参加活动的研友们通过微信群讨论组进行了实时交流。我们整理了研友们提出的主要问题以及嘉宾的解答,供大家学习参考。

 

本期活动文献

许家金,2017,语料库研究学术源流考。外语教学与研究,(1):51-63。

 

嘉宾简介:

刘国兵

河南师范大学外国语学院副院长、硕士生导师、博士、校聘教授、语料库应用研发中心学术带头人。研究领域为语料库语言学及英语教学。现任中国语料库语言学研究会常务理事,全国中学通用教材《英语》(新标准CD-ROM)核心编委、河南省教师教育专家、河南省中等职业教育师资培训专家。主持国家社科基金项目、教育部人文社科项目、中国外语教育基金重点项目、河南省哲学社科规划项目、“十二五”教育科学规划项目等多项国家及省部级项目;在国内外期刊上发表学术论文30余篇;出版译著2部、教材8部。



线上答疑整理

思考题参考问答

1. Corpus这一概念的发展主要经历了哪几个阶段?


语料库这个概念从出现至今,其发展过程可以分为若干阶段。有学者认为是四个阶段(如本文),也有学者认为是五个阶段,我个人认为四个阶段或五个阶段的划分,没有本质的区别。


我们可以先来看看许教授四个阶段的划分:

第一阶段:表示文本汇集。约400多年前,corpus 指文学作品集萃、宗教经典全集、文献汇编。


第二阶段:表示作为研究资料的文本汇集。19世纪中后期到20世纪二三十年代,主要出现在(对比)语文学、历史学、神学、法学、人类学研究文献中,表示作为研究资料的文本汇集,多指古代典籍文献。其中以人类学家Malinowski(1922)谈到的corpus inscriptionum Kiriwiniensium(基里维纳人语言素材)与今天的语料库概念最为接近。


第三阶段:表示作为语言学研究资料的文本汇集。20世纪四五十年代在(美国结构主义)语言学文献中,开始出现corpus 单独使用表示语言研究素材库的含义。从目前查到的文献看,以结构主义语言学家Harris(1947)为早。其使用语境如下:When such comparisons are carried out for a large corpus, we obtain morphemic segments which are repeated in various environments throughout the corpus.(同上:175,斜体系本文作者添加,下同)。


第四阶段:表示作为语言学研究资料的电子文本汇集。20 世纪六十年代以后,以布朗语料库(1967)为代表,逐渐确立了按一定取样方案采集、服务于语言研究目的的电子文本库这一概念。汉语文献中“语料库”这一中文译法,大致是对照计算机术语“数据库”推衍而出(杨惠中 1981:30;杨惠中、黄人杰 1982:60)。


但我在这个问题上与许家金教授观点有些不一致:

第四阶段:表示作为语言学研究资料的电子文本汇集。其实到了2000年以后,随着各学科的进一步发展,许多交叉学科应运而生。


语料库是电子文本汇集,这一点无可否认。但不一定仅限于作为语言学研究资料。人文社科(包括部分自然科学领域)的许多研究领域,目前都用到了语料库。这也就是为什么有的学者把其划分为五个甚至更多的阶段。这里数量不是关键,核心问题在于对语料库这一概念的界定。  


2. Collocation这一概念的发展主要经历了哪几个阶段?你同意作者的阶段划分吗?


我们还先看许老师关于这一问题的看法。他认为collocation 这一概念的发展可以分为三个阶段,分别如下:


第一阶段:400多年前,从collocation表示“事物并置”这一含义开始,便有词语并置搭配的用法(参见Simpson & Weiner 1989:487),它是对一种普通语言现象的描述。


第二阶段:1933年前后,collocation成为具有重要教学价值的应用语言学术语。1933年英国学者Harold Palmer在日本出版的《有关英语搭配的第二阶段中期报告》(Second Interim Report on English Collocations)是一部较早系统描写英语核心词语搭配行为的学术文献。据Cowie(1998a)考证,这份报告的实际编写者是词典学家A. S. Hornby。


该报告封面印有:A collocation is a succession of two or more words that must be learnt as an integral whole and not pieced together from its component parts.


上面这句话是学者们第一次从语言学视角对collocation进行正式定义,为Firth上个世纪五十年代研究collocation提供了思路(by刘国兵,不代表许老师观点)。


Cowie(同上:13)曾指出Palmer(1933)是一本“被严重忽略了的经典之作”。另据Cowie(1998b)考证,20 世纪四十年代俄罗斯的短语及搭配研究兴起,对英语搭配研究也产生过积极影响。


第三阶段:上个世纪五六十年代,搭配发展成为具有理论语言学地位的专业术语,它强调的是语言成分之间的结伴、相互期待和相互预见关系。这一阶段搭配概念的发展,当归功于J. R. Firth,他认为“搭配”是“意义的多维方式”(Firth 1951/1957:194)中的一个维度。


他还在另一作品《1930-55年语言学理论要览》(A synopsis of linguistic theory,1930-55)中提出了“识词于其所友!”(You shall know a word by the company it keeps!)(Firth 1957/1968a:179)的说法。当然,“识词于其所友”的理念也见于其他早期文献,详见梁茂成(2014:26-27)的相关考证。

Halliday(1961:276)在Firth 提出搭配生义之后,较早提出了搭配的概率观(probabilistic collocation),并使用了node(节点词)、collocate(搭配词)、span(跨距)这些概念,学界沿用至今。Halliday(1966:158)和Sinclair(1966:415)还分别用实例说明了搭配词的统计算法。Sinclair et al.(1970/2004)尝试了卡方检验、叶茨校正的卡方检验、费舍尔精确检验和泊松分布4 种搭配强度的算法。此后,语料库研究对于搭配的统计计算不断衍生,并发展成为独具解释力的短语学理论。


许老师把Firth、Halliday以及Sinclair对于collocation的研究都归为了第三阶段,其实我更倾向于把三者分开。至少把Firth的研究与Halliday和Sinclair分开。二者作为Firth的学生(而且均为在各领域颇有建树的学生),尤其是Sinclair,其实在对collocation的研究方面,已经远远超出了Firth。他们的研究或许是受到了Firth的启发,但至少在研究的深入程度上,已经不能同日而语了。


大家如果细看近些年有关语料库方面的著述,很多学者认为,Firth是研究collocation这一概念的第一人,这是错误的。Firth不是第一人,在他之前,已经有学者对其进行了较为深入的研究。到了Firth这里,按照目前的阶段划分,collocation研究已经到了第三个阶段。


所以,研究中一手资料太重要了。这也是本期为何我极力推荐这篇文章的重要原因之一。许老师为了查找collocation研究的源头,花了大量时间。


3. 美国结构主义学者中,哪些对语料库研究产生了较为直接的影响?


正如文中所言,现代语料库研究产生直接影响的是所谓后布龙菲尔德学者(post-Bloomfieldians),代表人物有Harris,Hockett,Pike,Twaddle。


美国布朗大学Francis 和Kucera(Twaddle 在上世纪五六十年代正是布朗大学语言学系负责人),以及密歇根大学Fries 等人是结构主义思想影响下从事语料库研究的早期重要代表。


其实美国结构主义本身,不管是研究目的还是研究方法,都对语料库语言学的发展起到了一定的推动作用。


众所周知,上个世纪初至五六十年代,美国结构主义一统天下。但结构主义学者把“基于真实语料对语言进行描写”作为语言研究的核心任务,这本身就与当代语料库语言学研究核心任务相一致。


这也是Twaddle(美国结构主义的代表人物之一)在做布朗大学语言学系负责人时,Francis 和Kucera能够专注于布朗语料库的创建的重要原因之一。试想,如果乔姆斯基在负责布朗大学语言学系,恐怕布朗大学不会建成世界上第一个电子化语料库。


此外还有密歇根大学的Fries,也是在美国较早从事语料库语言学研究的代表性人物。


值得一提的是,部分从事语料库语言学研究的英国学者,也先后在美国从事教学或合作研究多年,他们的思想或多或少都会受到美国结构主义的影响。


所以,我个人认为,语料库语言学研究秉承了美国结构主义语言描写的传统,美国结构主义思想为语料库语言学研究者在进行学科定位时提供了重要借鉴。但给现代语料库语言学研究带来最直接影响的,则是Harris,Hockett,Pike,Twaddle等人,也就是我们所说的后布龙菲尔德学派。


4. 有学者认为,韩礼德为代表的功能语言学与语料库语言学之间有着密切的关系。这些关系主要体现在哪些方面?


首先我们说一下功能语言学这个术语,它具有广义与狭义之分(Siewierska 2011)。


广义的功能语言学包括伦敦学派的弗斯语言学及其衍生流派,如系统功能语言学、话语分析、社会语言学、语用学、认知语言学、类型学等。有些学者所说的功能语言学包括范围更广,可分为美国功能语言学与欧洲功能语言学两个阵营。而欧洲功能语言学又包括很多学派,如布拉格学派、伦敦学派、哥本哈根学派、俄罗斯学派、法国学派等。而美国功能语言学则主要包括格语法、层次语法、认知语法、语言类型学等。


由此看出,实际上我们把其称为不同的功能主义学派更为贴切。而狭义的功能语言学则主要是指布拉格学派语言学。


如果完全按照这篇论文的内容来回答,这个问题其实具有一定的迷惑性。从一些读者给出的答案便可以看出,部分读者把问题看作了是广义的功能语言学与语料库语言学之间的关系。


这里说的主要是以韩礼德为代表的功能语言学,也就是系统功能语言学,包括“系统语法”和“功能语法”两个部分,这两个部分不是相互独立的,而是作为两个不可分割的方面,共同构成了系统功能语言学这个完整的语言理论框架。


韩礼德为代表的功能语言学与语料库语言学之间存在着千丝万缕的联系。例如,韩礼德注重概率语言观,重视词汇语法的语言学价值,提出“词汇语法Halliday”(lexicogrammar)的概念。许老师这里加了一个下标的Halliday,主要是想说明此处韩礼德提出“词汇语法”不同于语料库语言学上的词汇语法,这不是同一个概念。


论文在第一节也提到,有关搭配研究的一些核心概念,如节点词、跨距及搭配的统计算法等都是由Halliday 首创。早在Sinclair(1991)提出“习语原则”(idiom principle)和“开放选择原则”(open choice principle)之前,Halliday(1966:152-153)就指出词语在横组合关系上的制约构成搭配关系,在纵聚合层面构成开放式的集合关系(set)。两者共同界定语言结构和系统。


Halliday 主张的全局制约条件(global constraints)和局部制约条件(local constraints)正是他提出的系统与实例的互补性。系统功能语法因注重自身理论体系建设,并未就语料库相关理念作更多拓展。但是,系统功能语言学创立之初就与语料库研究方法高度兼容,二者在学科理念的很多方面颇为一致。


除了本文提到的这些方面,如果我们细读Halliday和Sinclair的著作,会发现很多相一致的地方。

  

5. 在作者看来,当今语料库语言学研究领域出现的一些新趋势有哪些?除此之外,您是否还有其他新的发现?


既然这个问题中有一句话,“在作者看来”,那么我们就紧扣这篇论文,看看许老师是怎么说的。


在论文的结语部分,作者提到:“在大数据背景下,语料库研究3.0时代已现端倪,它将会全面升级过去一个世纪以来语言描写和研究的范式”。我非常赞同许老师这一观点。


在上个世纪特别是上个世纪初期,我们常说,思想引领技术,没有思想,哪有技术的发展。也就是说,思想总是先于技术出现的。


但在当今时代,这样的发展模式已成为历史。可以概括为这样一句话,即“技术催生思想”(个人观点)。因为技术发展太快了,互联网发展如此之快,知识的传播速度超乎我们的想象,所以很大程度上是技术领先一步,之后我们才能慢慢认识到。尤其是语料库语言学,与计算机技术结合这么紧密,我相信它会将过去一个多世纪以来人们关于语言的认识与描写进行全面升级。


我们已经进入了大数据时代,这对语料库语言学这个学科来讲,迎来了发展的春天。我们常说,“Size does matter”,而目前size已不是问题。


在超大规模电子语料这一基本前提下,充分记录语言结构和功能特征,基于“关联数据”(linked data)模型,整合结构、语义、语境变量、语言类型学属性等信息,辅以智能查询和分析模块,从而完成语料库研究“用”“量”“器”“聚”的强化和升级。相信不断完善的关联数据模型必将开启语料库研究和语言学的未来。


此外,作者还提到,“当前语料库研究中还存在一些值得注意的现象”。之后列举:1)语料库研究实践中存在重词汇短语、轻句法语义的情况,这种局面随着技术革新,应会得到改观;2)相关研究论文的标题中出现“语料库”字样的情况有所减少,语料库理念和方法由标题而转入正文,不再作为一种时髦的学术标签,这可以视作是学科成熟的标志;3)研究实践已经指明,有关语料库研究的本体和方法的争议已渐有共识,语料库研究者既要成为数据采集者,又要争做理论建构者。语料库研究很大程度上是“具有很强方法论导向的语言学分支”(Leech 2011:158)。


作者在谈论现象,看似无足轻重,但实质上还是对该领域新的研究趋势的探讨。作为读者,我们需要准确把握这些趋势,进而用来指导自己的研究。

 

6. 读这篇论文,您最大的收获是什么?(以下为领读老师刘国兵老师的感受)


其实我在撰写导语的时候,已经把我的收获写进去了,基本上可以概括为八个字,“辨章学术,考镜源流”。


这篇论文主要对语料库语言学的发展历史进行梳理,从而让读者知源明流。许家金教授经过数年查阅文献,追踪溯源,最终《语料库研究学术源流考》于去年成文。


说是经过数年,一点都不夸张。我最早在2010年得知他在进行语料库语言学核心术语的查证工作。期间他多次提到,有些学者对于部分术语进行了错误引用,就是因为没有进行一手的考证。这样一错再错,如果不纠正的话,恐怕不利于语料库语言学这一学科的发展。所以,数年辛勤查阅,凝聚成这篇论文,值得读者仔细阅读。



自由问答

1. 能否请刘教授推荐一些可以处理中文语料的工具?


如果是语料加工,多数文本编辑器都可以,比如EditPadpro、PowerGrep等;如果是语料检索的话,常用的英语语料检索软件比如WordSmith、AntConc,还有北外语料库团队开发的PowerConc等,只要设置一下,都可以实现对汉语语料的检索。



2. 想请教一下关于处理汉语词语语义的工具?


语义本身就是一个很复杂的问题,这也是自然语言处理领域近些年研究的一个棘手问题。特别是汉语的特殊性,其语义问题更难以让计算机自动处理。


不过据我所知,有很多计算机领域的学者对此在不断地尝试,其中“NLPIR大数据语义智能教学科研平台”就是挺有趣的一个处理平台。提交语料以后,它可以帮你对语料进行分词、词性标注、词频统计、新词提取、文本自动分类、关键词提取、语义关联分析、句法关系分析、敏感词提取、摘要自动撰写等。这其实已经从形式上实现了语义的自动分析,但部分处理结果还不是很理想,有待进一步提高。另外,它的demo版允许个人处理语料的上限是3000字。


此外还有东北大学自然语言处理实验室开发的“中文句法语义分析系统NiuParser 1.3.0”,能够支持中文句子级的自动分词、词性标注、命名实体识别、组块识别、成分句法分析、依存句法分析和语义角色标注七大语言分析技术。NiuParser的特点是分析速度快并且拥有业内最好的分析性能,可以被广泛应用于研制基于深度计算的文本分析和文本挖掘等商业应用系统。NiuParser系统可以免费用于研究目的,但商业用途需获得商业授权许可。


还有哈工大社会计算与信息检索研究中心的“语言云”和“语言技术平台”等,都是不错的。


除了以上两款汉语处理工具以外,其他的多语言自动化处理工具或Python库也可以试试。比如:NLTK、TextBlob、Gensim、aCy、Polyglot、MontyLingua等,稍加摸索,对我们的研究肯定会有所启发的。



3. 想知道某些词在自建立的英文语料库中的使用频率,需要对某些词进行检索,用风林编辑器进行简单的文本处理后直接在AntConc软件上直接检索该词的出现频次,这样检索出来的数据是正确的吗?

 

据我了解,风林文本整理器的功能与记事本差不多,可以输出多种格式,也可以对文本进行加工和处理。比如你设置空行时,这款软件通常的做法是每个段落后面留有一个空行。这个空行还保留吗?这些问题我们都需要考虑。还有全角和半角问题。虽然在后期检索词频时不受影响,但其他检索项,我们不敢保证百分百正确。所以,在进行文本处理时,最好能够参照常用检索软件对文本的处理方法,以方便后期检索。


4. 参照语料库一定要比研究的语料库大吗?


通常情况下,参照语料库都比所研究的语料库要大,否则就起不到参照的作用了。但也不是绝对的,如果你有足够理由能够说明研究设计的合理性,谁大谁小也没有绝对的标准。现在的语料库动辄就数亿或数十亿词,那折合成字符不知要比这个大多少倍。所以说,语料库库容现在不是个问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多