分享

我统计了1980-2017共38年13+万字的考研英语真题,统计出了这份高频单词卡(附下载)

 cjs呼呼呼呼 2018-06-06

下载方式在文章最下方


本项工作收集了从1980-2017年共38年的英语考试试卷,经过文本清理后,总共包含133735个单词。注意,自2010年始,考研英语由单一命题分为试卷一、二,其中试卷一涵盖绝大部分考生。因此,从2010-2017年,本语料库只覆盖试卷一,试卷二不做统计。


1980-2018年所有考研真题(英语一)


总字数


1,

词频统计


这13万+的文本是预处理之后的总字数。预处理包括:

  • 删除汉字、数字、图片和特殊符号。特殊符号也包括文本中的连字符(-, hyphen),因此最终的高频词汇表不包括任何带有连字符的复合词(譬如单词self-esteem被认为是self和esteem两个单词,而非一个)。

  • 删除题干。由于题干年年重复,会干扰词频统计结果,因此在预处理时也被删除。

  • 格式删除。例如将试题中的表格删除,只保留文本。最后将文本转化为小写(Lower case)。

  • 词性还原(Lemmatization)。英语具有词性变换和衍生词。譬如,动词eat可能以eat、eats、ate和eaten的形式出现,如果在词频统计时不加处理,很显然将会把它们当成不同的单词对待,这显然是不科学的。因此,这一步就是将动词的不同形式、单复数、衍生词等归一化为单词最基本的形式。


可见,用于词频统计的文本库实际上包括了所有题型,而不仅仅是阅读题。这是和市面上很多考研词汇书不同的一点,本次统计更全面


然后进行初步统计,这38年的真题的单词总数是133714个,共计8321个单词。出现频率排名前20位的单词如下:


出现频率最高的20个单词(点击可看大图)


出现频率最高的词是定冠词 the 。显然,最高频词汇主要以冠词、介词、代词等虚词为主。这些词对于制作「考研备考单词表」意义不大,因为人人皆知。

再来看一下频率分布:


词频数量占比(点击可看大图)


图中的横坐标为出现1次到50次的单词数量,呈现非常显著的下降趋势。在这38年的考试中,只出现一次的单词数量有2995个,占总单词数的36%,当然这和文本库较小有关。与此形成强烈反差的是,出现频率超过17次的单词,数量急剧下降。从饼状图可以看到,出现频率在51-8385次的单词总数只占全部单词数的5%。


这个统计分析有什么意义呢?实际上,由于考研的时间较短(38年),造成文本库小。因此,大多数单词只出现了很少的次数(小于10次),但恰恰也是因为文本库小,我们背单词时反而应该多背词频较低的词汇,因为它们可能很重要,只是由于考研时间短,还没有给它们机会多次出现。


反而,我们应该从词汇表中删除词频高的单词,因为从第一幅图中知道,词频最高的单词基本都是虚词,是人人熟知的词汇(stop words),将这些词和一些不常见的人名、地名等专有名词删除后,得到的单词列表共有6744个单词。而且!!!我自己一个一个地检查了这6744个单词,确保没有错误才开始制卡,大家可以放心使用!


2,

制作ANKI单词记忆卡_v1.0


(注,这份Anki词卡只是初版(v1.0),之后会综合大家的使用体验不断提升和优化)


我将这6744个单词制作成Anki卡片,方便考研的同学直接使用。关于Anki的使用和设置方法,请参阅我之前的文章 👉:「利用Anki快速背单词」最全攻略


实际上,这些单词大多都属于英语使用频率较高的单词。因此同样适用于不考研的一般英语学习者学习。


单词卡集合了以下六点内容,现在以单词emphasis为例,单词卡的正面有四点信息:


单词卡正面


卡片集成了真人美式发音,可以通过快捷键「R」来不断播放。


卡片的反面包括四点信息:

  • 单词的变形(复数、分词等)

  • 中文解释(包括本单词在英语中的出现频率)

  • 英英解释

  • 例句


单词卡反面


安装方法和设置方案请参考帖子:「利用Anki快速背单词」最全攻略

单词卡下载方式:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多