分享

普通人也能用的9个语料库网站,做研究、学外语的来看看

 黄埔N期 2017-01-25

提到语料库,很多人脑中浮现出这样的画面——



或者这样的——



但其实,语料库可以是我们做(语言)研究、学外语的好帮手。比如,你可以在某些语料库查到最地道的英语表达,也可以听到世界各地的英语口音。


今天就为大家介绍9个语料库网站——


1. 语言结构世界地图集

Word Atlas of Language Structure


知道阿伯卡茨语有多少元音和辅音?波罗罗语的词缀有几种形态?恰卡通戈米斯特克语有几种声调?


想回答这些问题?


你需要的只是登陆这个名为The World Atlas of Language Structures Online(语言结构世界地图册,简称WALS)的网站



这里有各类语言分布的详细地图,有对于世界上2600多种语言192个语言学特征的详细记录,非常适合语言爱好者。



嗯,妈妈再也不用担心我被多语狂魔们实力嘲讽了,随便选出一个语言了解一下,足以技惊四座!



详细的使用指南以及更多精彩内容,午餐早已备好,我不会这门语言,但我可以查到关于它的一切 | 语言学午餐



2. 语言口音档案馆

the Speech Accent Archive


大家学英语这么多年,基本上属于身经百战了,哪个地方的英语口音没听过,什么纯正伦敦音,印度咖喱腔,苏格兰懵逼腔,布鲁克林街头腔,那是如数家珍。



但是,你听过刚果金非洲小哥的英语口语嘛?你了解玻利维亚大妈的英语口音嘛?喏,这个名为the Speech Accent Archive 的网站绝对可以满足各位英语语音控的猎奇愿望。



该数据库搜集了几百名来自世界各地,不同民族语言背景的人们针对同一段文字的录音资料,每段录音都详细记录了音频提供者的详细背景资料,每段语音也很详细的进行了转写。


对于研究者来说,可视之为研究英语使用者发音特征的独门利器;对普通人来说,则是一个了解各地英语口音的难得窗口。



3. 当代美国英语语料库

COCA


想知道某个单词在新闻和小说中的使用有什么差异?英文写作的时候想知道自己写出来的英语搭配够不够地道?想知道背下多少单词就可以流利阅读各类小说报纸?



嗯,你需要的只是一个语料容量巨大的英语语料库,COCA恰好可以满足你的这些需求。


当代美国英语语料库(Corpus of Contemporary American English,简称COCA)是目前最大的免费英语语料库


语料库由包含4.5亿词的文本构成,文本分为口语、小说、流行杂志、报纸以及学术文章五种不同的文体。单词,短语,搭配,想搜什么搜什么,丰富的英语语料很适合英语学习者了解地道表达。



再一份详细使用指南倾情奉上,走近COCA,在线语料库的翘楚 | 语言学午餐(注:目前COCA界面和该文章写成时稍有出入,但主要操作流程仍值得参考)。



4. 儿童语音语料库

CHILDS


午餐君曾经有过这么一个想法,将来如果成功升级为孩儿他爸,一定要把自己孩子学说话的过程进行录音,然后安心保存,处理,分析,说不定可以探究出语言习得的奥秘,然后提出理论,一战封神,著书立说,设馆招徒,麾下天启四骑士,再然后成为顶级公知(喂喂喂!快醒醒!你个单身狗!)



不过话说回来,实际记录儿童语言这个想法早就有学者付诸实践了,他们还创立了一个规模庞大的儿童语音语料库CHILDES(Child Language Data Exchange System)。


儿童语言数据交流系统是在儿童语言研究相关领域被最广泛使用的语料库,创立于上世纪八十年代,涵盖了多门语言中儿童习得者的语音记录。根据学者统计,截至2000年,已有1000余项基于该语料库的研究成果发表( MacWhinney 2000)。



在这里,你可以找到儿童语言习得过程的详细音频文件和转写文本,涉及的语言包括英语,德语,法语,日语,汉语,广东话等等。错过了记录自己牙牙学语的轨迹,或许这个数据库是一个不错的弥补手段。


嗯,这个也有使用指南:一款超级强大的儿童语音语料库 | 语言学午餐



5. 语言学数据联盟

Linguistic Data Consortium


前不久AlphaGo席卷棋坛,人工智能再显神威;提到语言学中的人工智能,大家第一反应或许会是苹果的语音助手Siri。


不过各位有没有想过如果你有足够的数据资料,辅以适当的算法,做一个人工智能语言系统也许并不是那么困难,这不,Linguistic Data Consortium就为你提供了这种可能。



这个上世纪90年代初由宾夕法尼亚尼亚大学发起的数据共享平台,目前已经由上百所大学加盟,涵盖几百种语言数据,包含英语,法语,西班牙语,汉语等十多种语言。


Siri之所以能够神奇的听懂使用者的命令,很大程度上得益于其背后强大的语音数据库,而LDC的强大之处就在于它提供了大量的语音资源,口语对话,新闻广播,电话对话等等。唯一有些伤感的是,这个数据库并不是免费的,不过也别气馁,如果你有惊人的idea不妨尝试申请一下LDC提供的研究奖励金,这样就可以继续实现你的语言智能梦想了。



说了这么多,就差一个程序员了...



6. 北大&北语汉语语料库

CCL and BCC


刚刚说了好多英语数据库,我们再来聊聊汉语语料库。


汉语语料库里有两个不得不说,一个是老牌劲旅,北京大学汉语语料库(CCL);一个是后起之秀,北京语言大学汉语语料库(BCC)。


两个语料库各有千秋,各有特点,小编也不敢妄下评价,不过有一点是相同的,那就是两个语料库用来做汉语研究和日常搜索(比如教外国人汉语时找例句)都相当不错。



北京大学汉语语料库是汉语研究中最主要的语言案例来源,每当使用的时候,都可以自豪的说出自己使用的是专家同款语料库,其语料编排得当,挑选细致,搜索方便,这些优点都使得其广为语言学众所喜爱。北语汉语语料库则拥有更多数据搜索功能,例如可以查看搜索词的历时词频变化,学生作文语料等等,语料容量更是达到了惊人的bilion级。



除了上述这些以外,语言学数据库还有很多很多,比如一些强大的专业性语料库,双语平行语料库,多模态语料库,依存树库等等。


在文末午餐君再为各位附上两个提供语料库索引功能的网站:



http://www./varieng/CoRD/corpora/corpusfinder


这个名为corpus finder的网站提供了近60种语料库的资料信息和使用链接,感兴趣的朋友不妨试试看。



http://www.


不少大学院系网站上也会提供大量的数据资源和相关指南,北京外国语大学语料库团队的网站就是一个不错的选择,网站提供了大量语料库相关资源,相比国外网站,其汉语数据也更丰富。







    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多