分享

数据驱动的应用语言学研究

 skysun000001 2022-01-07

图片

来源:《中国社会科学文摘》2021年第12期P23—P24

作者单位:浙江大学外国语言文化与国际交流学院,摘自:《现代外语》2021年4期,莫斌摘

图片

对于语言研究者而言,基于使用不外乎就是从大量人类的真实语言材料中发现语言系统的运作规律,是一种数据驱动的方法。为什么如此显而易见的道理,会对语言研究具有深远的意义呢?

要回答这个问题,可能还得回到现代语言学之父索绪尔对语言与言语的区分。尽管索绪尔前后的学者,也使用过相同或不同的术语来区分语言系统的具体(个体)与抽象(集体)层面,但索绪尔的影响毫无疑问是最大的。

如果语言是言语的抽象,是平均数,那仅用基于逻辑代数的形式化方法来研究,可能是不够的,而应想办法寻求一种计算平均数的方法,使语言尽可能逼近人类的语言系统。如果没有一个人的语言是完备的,那么,采用内省法研究语言所得出的结论,是难以反映语言系统运作规律的。如果语言源于言语,而且还是“确定”的部分,那该用什么方法来确定这个“确定”呢?特别是,言语本身又是动态的,是不断变化的。如果语言来自言语活动,是集体的产物,任何脱离人类日常语言的、过于抽象的数理方法,所发现的所谓语言规律,可能都难以被需要语言规律的其他领域所使用。这或许就是语言学家在智能时代失语的根本原因之一。

事实上,从索绪尔的话语里面,我们不仅看到了问题,也看到了解决这些问题的思路。今天的我们,要比100多年前的索绪尔更有办法从大量的言语(语言使用)材料中获得语言这个平均数。理论上,数据越多,这个平均数就会越接近这种语言使用者集体的语言。这种由数据产生智能的思想也正是当今人工智能技术的核心。平均数的概念,也揭示了语言的概率特质,而概率规律的发现必须有数据,这使得语言研究与语言使用数据之间有了一种天然的联系。我们不难看出,把语言与言语视为两种“绝对”不同的东西,可能有些“绝对”,或许只是一种时代的局限。因为,100年前的人,很难想象有朝一日,他们的后人会有办法从数百万人说的数以亿计的言语中得到一个更接近集体语言的平均数。也许,现在正是语言学研究者走出“花园”,走进人类语言“灌木丛”的最好时机。数据驱动的方法,也有助于解决有关语言结构与演化的“索绪尔悖论”,从而使语言学家走出静态共时的魔圈,直面人类鲜活的日常语言。

从“花园”走向“灌木丛”的最大挑战来自语言的概率性。尽管基于使用的方法可以让语言学回归经验(实证)科学,可以更好地处理语言变化、动态、习得等问题,但我们能够使用的不外乎是各种语言单位的出现频率。如果我们打算把语言视为一种基于使用(言语)的概率系统,那么频率结构应能反映语言的普遍性、语言的变化和个人语言的风格。词频结构不仅能够刻画语言的普遍性,也可以追踪语言的历时演化轨迹和区分共时的个人语言变体。换言之,通过词的频率结构,我们不仅可以发现语言的普遍性,也可以观察到语言的多样性,并在历时变化和个人变体的多样性中探索语言的统一性。正是人类语言这种普遍性蕴含于多样性的特质,使得变化不断的语言仍能作为稳定的人类交流工具。这项研究在一定程度上为构建基于使用的语言理论打下了基础。

基于语言使用的方法打破了语言与言语的界限,将二者打通不仅有助于解决抽象的形式方法不易解决的问题,也使语言学家可以直面日常语言的“灌木丛”,发现语言系统运作的真正规律,服务于需要语言规律的领域。

索绪尔认为,“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑”。尽管索绪尔在这里只是将语言视为一个符号系统,但也可以看出语言研究也应像研究任何其他系统一样,通过研究成分之间的关系来更好地了解系统的结构规律。按照此前提到的“平均数”的说法,一个词的意义是在大量的语言使用中获得的。没有词的使用,也就无法获得词与其他词之间的关系,也就无法获得所需的平均数。从这个意义上讲,索绪尔的系统观也是一种基于使用的观点,而不宜简单地将其理解为一种形式逻辑关系。如果语言是一个系统,就应该采用研究系统的科学方法来研究,但为什么人们却不断尝试用各种符号逻辑等形式化的方法来研究它呢?其中的一个原因可能是人类,特别是其中最有知识的一部分人,认为可以找到一种更完美的方式来表述我们用自然语言表达不清的东西。在研究分析了人类2000年来寻求完美语言的历史之后,Eco(1995)认为,虽然这种寻求带动了诸如知识表征与分类等领域的发展,但所寻求的目标是难以达到的。这可能从另一个角度说明,人类日常语言尽管有这样那样的问题,但却很难找到更完美的替代品。逻辑语言在精确化方面的优势,抵不过它在表现力方面的劣势。而对于人类来说,日常语言更能满足他们表达这个丰富多彩的世界的需要。在哲学史上,从逻辑语言转为日常语言的代表性人物是被罗素称之为“天才人物的最完美范例”的维特根斯坦。在维特根斯坦1921年发表的《逻辑哲学论》中,我们不难看到弗雷格、罗素和怀特海等人的影子,也再次体会到人类对日常语言的失望以及对完美语言的希冀。然而,在1953年的《哲学研究》中,维特根斯坦对日常语言的态度有了一个180度的转变。他认为,哲学家要用日常语言说话,在使用中考察词的意义,而不是脱离用途,孤立地考察所谓的绝对意义。

尽管主流语言学几十年来的努力大多体现在推进语言的形式化研究,寻求人类语言中的普遍形式规律,但语言的使用者都明白,语言无论是作为交际工具,还是思维工具,表达意义、传递意义才是语言得以存在的根本。因此,离开意义、离开人的语言研究,无论从什么角度看,都是不完备的。遗憾的是,维特根斯坦的用法论在理论语言学界,几乎没有引起大的反响。绝大多数语言学家仍沉迷于用各种逻辑手段来解构语言、分解语义,热衷于活在他们用五花八门的概念打造的远离日常语言(民众)的亭台楼阁之中。诚然,如何从近乎无限的语言使用数据中获得词义的表示是一个极大的难题。但是,如果意义的本质是不能分解的,如果作为构成语言系统的最基本单位的词的意义只能通过它们的用法来把握,寻求可以从使用数据中获得意义的方法可能是破解人类语言意义之谜的必由之路。基于深度学习和人工神经网络的自然语言处理领域取得了突飞猛进的发展。这其中,基于大规模人类语言真实材料之上的用法论的计算机实现起了极其重要的作用。从文本语料中获得词的用法信息,并将其表征为一个唯一的向量,几乎成了当前自然语言处理的标准操作。自然语言处理研究者的实践表明,“用法论”和“分布语义学”不但可行,也更有效、更适合语义的计算处理。这种方法不仅解决了语义不可分解的难题,也得到了可比的词义平均值,而且这个值还能随使用的变化而变化,学得越多,就懂得越多,充分体现了语言的概率性本质。按照用法论的观点,你对一个词的用法了解越多,你对它的意义理解得也就越透彻。

语言作为一个人驱复杂适应系统,其运作要考虑到系统运行的目标。研究者发现,人类语言由于受到人类认知机制的约束,具有一种依存距离最小化的普遍性倾向。依存距离指的是句子中两个有句法关系的词之间的线性距离。依存距离最小化反映了人类的认知过程对语言结构的塑造。这个距离越小,交流起来就越省力。句子越长,出现长距离句法关系的可能性就越大。长句的依存距离分布符合幂律,而幂律本身就是复杂适应系统的一种特征。在处理长句的过程中,语言系统会启动一种自适应机制,即人会使用一种动态的语言单位(组块)来降低长句的平均依存距离,从而实现依存距离最小化这一人类语言系统的运作目标。

这些研究说明,基于使用的语言研究方法,可以将意义、使用、系统、动态、适应等构成语言系统的要素有机结合起来,从而更好地揭示与解释语言作为一个人驱复杂适应系统的运作规律。

如果语言学研究的是人的语言,如果语言是一个人驱复杂适应系统,那么,语言学研究者就没必要过于纠结语言与言语的区别,而应该把精力放在如何从海量的语言使用数据中提取语言系统的运作规律上。否则,语言学研究得到的规律很难解释丰富多彩的语言现象,也难以被问题驱动的应用语言学、自然语言处理等领域所使用。基于数据(使用)的语言学研究不仅可提升语言规律的解释力,也可强化理论与应用之间的互动关系,有助于形成良性的学科发展动力和构建二十一世纪的语言学。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多