2017年2月12日下午,“语英坊”(EngLing Workshop)系列学术讲座的第一讲在北京社科书店成功举行。国际世界语学院(Akademio de Esperanto)院士、浙江大学求是特聘教授、广东外语外贸大学云山领军学者刘海涛,就“大数据时代的语言研究:距离与方向”这一主题,为约70位与会专家、学者、企业界代表及其他社会各界听众带来了一场精彩的讲座。 中国社会科学院语言研究所《当代语言学》期刊责任编辑王大惟副研究员组织并主持了此次讲座。 刘海涛教授在历时近三个小时的讲座中,针对语言研究在“大数据”时代面临的挑战与机遇,以他及所率团队在语言学领域多年来潜心钻研、享誉国际的学术成果为例,深入浅出地讲解了如何以(依存)距离和方向为纲,通过文本的计量来进行语言与认知及语言类型方面的研究。贯穿讲座始终的“中国语言学国际化与科学化”这一议题,引起听众的极大共鸣。在“大数据”时代,语言学如何从艺术与人文学科向生命与认知科学转向,中国语言学如何走向国际,乃至语言学如何实现科学化这些问题振聋发聩,引发了每位参会人员的深思。现场气氛热烈,听众还就研究方法、数据获取及研究课题等方面跟刘海涛教授展开了广泛而深入的交流。 讲座一开始,刘海涛教授援引了舍恩伯格(Viktor Mayer-Sch?nberger)和库克耶(Kenneth Cukier)在《大数据时代:生活、工作与思维的大变革》一书中的一段话: 借此,刘海涛教授引出了本次讲座的核心:转变。大数据开启了一次重大的时代转型。 与传统的研究方式相比,大数据时代给我们带来了三大转变: 这种转变将为人类的生活创造前所未有的可量化的维度,之前无法量化的研究对象可以通过量化展开精确研究。例如,Lieberman等(2007)通过对跨越200年的文本中英语不规则动词的规则化使用的量化研究,发现经常使用的不规则动词不容易规则化,而不经常使用的不规则动词反而容易规则化,这也是 chide 这个罕用词被称为“世界最快动词”的缘由。 英语不规则动词的规则变化规律 以上研究表明,数据的量化分析有助于揭示过去不好分析或无法分析的语言事实与规律。哈佛大学政治学系教授加里·金(Gary King)在最近的一次演讲中也提出了类似的观点(http://news./info/1007/1275714.htm)。他指出: 在其他人文学科中,数据与理论之间也有各自的问题。对此,刘海涛教授提出了自己对“数字(数据)人文”的一些看法。数字人文的真谛是:把数字(数据)与知识、社会、文化、行为、人联系在一起,而不是简单地把一本书、一幅画数字化后保存在计算机里;通过可视化的方法,更直观地展现这种联系;以及通过数理统计方法,更科学地解释数据背后隐藏的有关人类认知、行为的模式以及人与社会、自然交互的规律。 在此背景下,语言学家的任务是什么呢?我们知道,语言学是研究语言结构与演化规律的学科。语言的输出端是线性结构,而人脑中是网络结构,二者具有不同的结构。那么线性结构与网络结构之间的转换是如何及何时进行的?再者,字同现、词同现、句法、语义、概念等层面有什么区别?这其中又有什么规律?对于这些问题,刘海涛教授指出,我们都可以通过对真实语料(大数据)的研究来探求。正如伯纳德·科姆里(Bernard Comrie)在《语言共性和语言类型》这本书的前言中指出的,“语言学研究语言,而语言是民众实际所讲语言。” 这样,才能反映出语言使用的真实面貌,而不是存在于人脑中的假设。Rickheit和Sichelschmidt(2007)也曾明确指出: 可见,语言学家需要为语言学的转向做好准备,迎接大数据时代带来的研究方法与理念上的转变。这将有助于中国语言学的国际化与语言研究的科学化进程,进而真正实现作为一门(领先)科学的语言学。 接下来,刘海涛教授结合他和团队成员多年来的研究经历与学术成果,介绍了在大数据时代探索中国语言学国际化与语言研究科学化的成功经验。 这些显赫的成果背后是刘海涛教授及其团队多年来在基于依存语法的计量研究方面所做的大量工作与不懈的努力。他们主要从依存距离与认知规律、依存方向与语言类型学、复杂网络与形态学这三个方面展开研究,探索人类语言的普遍特征以及语言类型研究的新范式,在计量语言学、心理语言学、认知科学及语言类型学方面,都具有开创性的重大意义。 刘海涛教授在依存语法的基础上研究依存距离与依存方向。依存语法是法国语言学家泰尼埃(Tesnière)在对古希腊语、古罗马语、罗曼语族、斯拉夫语族、匈牙利语、土耳其语和巴斯克语等数十种语言对比研究的基础上提出的一种普适的语法理论。刘海涛(2009)总结道,泰尼埃对句子的分析重在寻求句中各词之间的关系。依存关系是一种词间句法关系。依存句法是一种以依存关系为基础的句法理论。 与之相关的另一个重要的学术思想是,语言是人驱动的符号系统(Liu 2014)。现代语言学之父索绪尔提出,语言是一个符号系统。刘海涛教授在此基础上,强调人的重要作用。因为人兼具心理、生理与社会、自然的属性,所以语言呈现出一定的普遍性与多样性。前者对应于一般的认知规律,后者对应于生态的多样性。 接着,刘海涛教授分别从(依存)距离、(依存)方向,以及距离和方向这三个方面介绍了他们的研究工作与成果。 依存距离指的是构成依存关系的支配词和从属词之间的线性距离。对于依存距离的计算与分析可以反映出句子分析的难易程度。因为分析句子就是将一个线性字符串转换为一个依存结构树的过程,也就是说: 进而,真实文本的依存距离具有某种分布规律吗?这些规律是人类语言特有的吗?这些规律的认知基础是什么? 他在Hawkins(1994)和Gibson(1998)的理论成果的基础上进一步提出依存距离的三个假设:(1)人类语言处理机制偏爱的句子,其依存距离要尽可能地小;(2)这个小的要求是在一个范围内,与人的工作记忆容量差不多;(3)认知和语法共同起作用。不过,以上研究只采用了一种自然语言的样本,还无法说明人类语言的共性。 自然语言与随机语言的依存距离均值 如上图所示,汉语的依存距离均值最高,为3.66。以上这些语言的依存距离均值,都在现代心理学普遍认定的工作记忆容量为4的阈值内。刘海涛教授的这一发现,是首次使用大规模真实语料的文本而得出的语言普遍性的规律,具有重要的创新意义,并对该领域的研究产生了深远影响。2015年,麻省理工学院弗特勒尔等人(Futrell, et al. 2015)对37种自然语言进行了基于语料库的大数据分析,再次验证了语言中的依存距离具有最小化的倾向。 扫描右上角二维码即可下载全文,浙大学报棒棒的! 除了依存距离的最小化,刘海涛教授还对依存距离的分布展开了研究。他提出了如下的问题:依存距离分布有没有规律?依存距离分布的规律是否符合一定的分布模型?依存距离分布模型是否会随不同语言而异,导致分歧的主要原因是什么? 为什么长句是幂律呢?因为幂律是系统自适应调节的结果;两种分布模型分歧的主要原因可能受拟合方法、不同语言、句长和文本大小等因素的影响。 他们提出了一种枚举依存树的方法,进行依存句法结构计量研究,结果显示:语言中的依存交叉并非偶然现象,根据计数公式推导出的交叉依存比例,远高于真实语言树库的统计数据;平均依存距离难以区分交叉与不交叉依存;依存距离最小化能约束交叉依存比例降至真实语言情况,但此时平均依存距离与真实语言不同。这些说明除受人类认知机制约束外,可能还存在其他因素促使人类语言倾向于不交叉。 刘海涛教授进一步指出,对于语言共性的发现是具有应用价值的。最近,谷歌的人工智能团队在机器翻译上取得了突破性的进展,其核心理念是找到了具有相同含义的句子的共同基础,而不用考虑他们属于哪种语言。 (https://www./article/2114748-google-translate-ai-invents-its-own-language-to-translate-with/)也就是说,不同语言表示语义和认知的概念结构基本相同,而线性序列则是不同的。 刘海涛团队的另一个重要发现是关于依存方向与语序类型之间的关系。在语序的类型学研究中,句中语法单位的线性顺序通常被看作是区分不同的语言的首要条件。Greenberg (1963)在该领域做出了开拓性的成果。在他提出的45种语言的共性中,大多会描述该条共性的使用情况,如: 可见,这些共性的前提条件也是统计的结果,只不过限于当时的研究条件,无法在基于真实语料的大数据上来统计。现在,我们不仅有基于真实文本的语料库,还有经过句法标注的语料库。其中,依存树库就是一个很好的资源。这是因为,在对语言类型的研究中,泰尼埃早就发现了不同语言在中心语置前还是居后上有不同的倾向性(Tesnière 1959)。而中心语置前还是居后在依存语法就可以表现为支配词前置或后置,这种信息在依存树库中都是有明确的标注的。 维基百科上有人这样评价这项发现:“该研究为现代的语言类型学提供了一种全新的先进方法。” 二十种语言的依存方向分布 如图所示,任何一种语言都可以在上述这个连续统中找到自己的位置。这意味着,语言可以在这个连续统中根据距离的远近来进行聚类分析,而传统的类型学研究是按照分类标准来划分出几个具体的类型。 此外,我们也可以利用依存方向来考察优势语序(dominant order)。 这就说明了,我们可以利用树库作为语言类型学研究的数据基础。 跟传统的类型学的研究相比,刘海涛(Liu 2010)这篇文章所使用的方法具有如下的优点与创新性: 它是基于统计和语料库的; 它具有鲁棒性(robust)和非离散性; 它是细粒度的; 它是对语言更为整体性的类型学方法; 它可以跟计算语言学共享语言资源。 英国著名语言学家Hudson教授对这篇论文赞赏有加,说它充满了原创性的思想和重要的数据。 敬请期待下篇。精彩内容,岂能错过?看大家笑的,那是被精彩到了呀。 语英坊,语言奥秘探索者的家园 【logo虚位以待,征集中……】 |
|