分享

论文必备:英语法宝—语料库(汇总)

 江湖留传说 2021-10-23
爱V高中英语推荐搜索关键词列表:双语美文月末干货长难句一轮复习精品课

语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。下面推荐一些优质的语料库资源。

语料库标注和解标注软件:

AnnoTool, GoTagger,DeTagging, 

语料库检索软件:

WordSmith4. 0, PowerFREP, MicroConcord,ParaConc, ConcappV4, 

文件格式转换工具:

SoundScriber, Vwalker2, 

基于数据驱动学习的工具:

Dropper, WordPilot, Xcloze, 

搭配工具:

CNgramtool, CollocExtract, kfNgram2005

语料库的作用

1、确认表达是否地道、

2、确定单词的使用语境,

3、比较近义词的区别

4、寻找合适的用词寻找句式

英语著名语料库

英国国家语料库
BNC=The British National Corpus

http://www.natcorp./

http://corpus./bnc/

英国国家语料库(BNC)是一个以来源广泛的书面语言和口语为样本,收录了1亿字的电子资源,用以呈现20世纪后期以来的英式英语,涉及口语和书面英语。该语料库书面语与口语并存,词容量超过一亿,由4124篇代表广泛的现代英式英语文本构成。其中书面语占90%,口语占10%。BNC最新版是BNC XML2007。它采用国际通用标准化标注体系SGML,使用三级赋码标注,使标注错误率由3%减少到1%。在应用方面,该语料库既可用其配套的SARA检索软件,也可支持多种通用检索软件,并可直接进行在线检索。

图片

美国国家语料库
ANC = The American National Corpus

http://www./

美国当代英语语料库
COCA = Corpus of Contemporary American English

http://www./

Corpus of Contemporary American English(COCA),由美国Brigham Young University的Mark Davies教授开发的高达3.6亿词汇的美国最新当代英语语料库,是当今世界上最大的英语平衡语料库。与其它语料库不同的是它是免费在线供大家使用,给全世界英语学习者带来了福音,是不可多得的一个英语学习宝库,也是观察美国英语使用和变化的一个绝佳窗口。

美国当代英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库,它由包含5.2亿词的文本构成,这些文本由口语、小说、流行杂志、报纸以及学术文章五种不同的文体构成。从1990年至2015年间语料库以每年增加两千万词的速度进行扩充,以保证语料库内容的时效性。因此,美国当代英语语料库被认为是用来观察美国英语当前发展变化的最合适的英语语料库。

图片

美国近当代英语语料库
COHA = Corpus of Historical American English

http://corpus./coha/

柯林斯英语语料库
BOE=Bank of English

http://www./wordbanks/

新规范语料库
NMC=New Model Corpus

http://www./

文选参考语料库
ARC=ACL Anthology Reference Corpus (ARC)

http://the./auth/preloaded_corpus/aclarc/ske/first_form

英国学术书面语语料库
BAWE=British Academic Written Eng Corpus (BAWE)

http://the./auth/preloaded_corpus/bawe2/ske/first_form

http://www./AcaDepts/ll/app_ling/internal/bawe/sketch_engine_bawe.htm download

英国学术口语语料库
BASE= British Academic Spoken English Corpus (BASE)

http://www2./fac/soc/celte/research/base/

苏格兰口语与书面语语料库
SCTS=Scottish Corpus Of Texts and Speech

http://www./

国际英语语料库( ICE)
http: / /www.ucl.ac.uk /english - usage / ice /htm

分别由英国英语分库、美国英语分库、新加坡英语分库、澳大利亚英语分库等组成。每个分库都由300篇口语、120篇独白、200篇书面语、150篇印刷语组成。其可提供对英语系国家不同英语的比较。

英语混合语语料库
VO ICE语料库

(Vienna Oxford International Corpus of English)容量为25万词次,并且正在扩充中收集的是英语口语、英语作为混合语的交流、大量没有文本的英语学习者之间的交流。http: / /www. univie. ac. at/Anglistik /voice /

ELFA语料库(English as a L ingua Franca in Academic Settings) ,容量为50 万词次。内容为口头学术英语。

http: / /www. uta. fi/ laitokset/kielet /engf / research / elfa /

英语历史语料库
ARCHER 语料库

(A Rep resentative Corpus of Historical English Registers)容量为170万词次。该库有1, 037个文本,涉及10个领域,包括英国英语和美国英语,并进行了词性标注。

http: / /www. cal. nau. edu / english /degree_programs. asp访问。

CEECS语料库

( Corpus of Early English Correspondence Sampler)容量为45万词次。内容为个人书信。

http: / /www. eng. helsinki. fi/varieng/main / corpora1. htm

当代苏格兰语实库
SCTS=Corpus Of Modern Scottish Writing

http://www./cmsw/

杨百翰大学语料库
http://view.

 杨百翰大学的Mark Davies教授开发的语料库统一检索平台,整合了美国当代英语语料库、美国历史英语语料库、美国时代杂志语料库、BNC、西班牙语料库、葡萄牙语料库等6个语料库的资源。该网站每月有60,000人的使用量,也许是目前最广泛使用的网络语料库。

联合国文件数据库
http://documents./simple.asp

 本文件系统包括了1993年以来联合国印发的所有正式文件。不过,联合国的早期文件也逐日添加到本系统。本文件系统也提供从1946年以来联合国大会、安全理事会、经济及社会理事会和托管理事会通过的所有决议。本系统不提供新闻稿、联合国出版物、联合国条约汇编或新闻部印发的新闻材料。由日本捐赠的3万多份数字化文件已被增添进正式文件系统。

兰开斯特汉语语料库(LCMC)
http://ota.oucs./scripts/download.php?otaid=2474

 应学术界对免费对公众开放的平衡的现代汉语语料库的需求的情况下筹建的。LCMC语料库是由兰开斯特大学语言学系承担的并得到英国经社研究委员会资助(项目代号:RES-000-220135)的研究项目。LCMC语料库是与 Freiburg-LOB Corpus of British English (即FLOB)平行对应的汉语语料库,它有助于我们从事汉语的单语和英汉双语的对比研究。通过上述网址可以免费索取LCMC预料用于研究之用。

SKETCHENGINE多语言语料库
http://www.

 每个邮箱可以注册一次,免费期是一个月,免费期过了就再注册一个邮箱,再注册一次。其中汉语语料库是没有加工的生语料库,使用价值不大。关键是其中的英语语料库实际上是原来要付费才能使用的BNC,可以好好利用。 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多