分享

实用工具|美国当代英语语料库 COCA

 吉祥时光 2017-01-27



美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,也是第一个大型的语料平衡的美国英语语料库。语料库由包含4.5亿词的文本构成,文本分为口语、小说、流行杂志、报纸以及学术文章五种不同的文体,各占库容的20%。

它不仅是一个简单的在线词典,而且从建立之初就体现了其作为检索语料库的特征,能够协助研究者追溯语言发展中的变迁(Davies,2010)。该语料库由美国杨百翰大学的Mark Davies教授主持创立并在2008年正式上线。其除了强大的文本检索功能外,由于将语料按照年份进行了细致的划分,使得研究者追溯语言发展中的变迁成为可能。

下面小编就来简要介绍一下COCA的主要功能和使用注意事项


这就是COCA的网站封面,看起来还是很有设计感的吧



封面过后,终于进入主界面了,看起来不是很繁琐,但实际上功能多多


这里就是最主要的操作处,也就是输入查询词的地方,先来个最简单的单词查询看看,直接输入cause(注:此处直接输入仅显示cause本身的搜索结果,不包括causes,caused等等,如需检索单词的全部形式,检索时需加[],下同),下图则是检索的结果,右上是检索概要,右下是索引行信息。

COCA的一大特点是将文本分成了不同的语体,我们可以比较同一个词在不同语体中的出现状况,还是以上文的搜索词cause为例,我们试图对比其在人文类学术文章和科技类学术文章的分布差异,下图是其具体的检索结果,小编先解释一下,几个数据分别的含义,tokens1指检索词在第一部分语体中的出现频次(即图例中的人文类学术文章),tokens2指检索词在第二部分语体中的出现频次(即图例中的科技类学术文章),PM1和PM2则分别指两个语体中的百万词词频,RATIO则是二者的比值;下图中检索词在两种语体中差异还是相对明显的,科技类学术文章中的使用明显多于人文类学术文章。

就这点内容似乎还不够精彩,COCA还支持检索词的搭配关系搜索,看到图中的POST LIST选项了嘛,从中可以选出想要的搭配词类,比如说小编搜索与reflect后面出现的名词,并按相关度排序(见下图),便得到了reflect后面关联度最高的名词成分。


COCA同样可以让检索者方便的进行文本细读,比如说想知道检索词有哪些左邻词和右邻词,选择KWIC检索,便可以得到下图的索引行检索结果,索引行信息中完整的包含了语体、出处和年份信息,还对节点词附近的邻词按照不同的词类用不同颜色进行高亮表示。

除了列表显示(list),COCA还支持图标显示检索词在各语体中的分布情况,下图便是cause在语料库各语体中的分布情况。


更令人感到欣喜的是,COCA还支持不同语料库检索词语体分布信息的比较,如下图所示,可以与BNC、COHA、TIME等众多语料库的词语语体分布或历时变化特征比较(视对比语料库而定)


不仅如此,COCA还可以进行同义词辨析,比如说smart和clever,中国学生可能会分不清二者的区别,而借助语料库,可以轻松发现两者的常用搭配完全不同。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多