下载方式在文章最下方 本项工作收集了从1980-2017年共38年的英语考试试卷,经过文本清理后,总共包含133735个单词。注意,自2010年始,考研英语由单一命题分为试卷一、二,其中试卷一涵盖绝大部分考生。因此,从2010-2017年,本语料库只覆盖试卷一,试卷二不做统计。 1980-2018年所有考研真题(英语一) 总字数 1, 词频统计 这13万+的文本是预处理之后的总字数。预处理包括:
可见,用于词频统计的文本库实际上包括了所有题型,而不仅仅是阅读题。这是和市面上很多考研词汇书不同的一点,本次统计更全面。 然后进行初步统计,这38年的真题的单词总数是133714个,共计8321个单词。出现频率排名前20位的单词如下: 出现频率最高的20个单词(点击可看大图) 出现频率最高的词是定冠词 the 。显然,最高频词汇主要以冠词、介词、代词等虚词为主。这些词对于制作「考研备考单词表」意义不大,因为人人皆知。 再来看一下频率分布: 词频数量占比(点击可看大图) 图中的横坐标为出现1次到50次的单词数量,呈现非常显著的下降趋势。在这38年的考试中,只出现一次的单词数量有2995个,占总单词数的36%,当然这和文本库较小有关。与此形成强烈反差的是,出现频率超过17次的单词,数量急剧下降。从饼状图可以看到,出现频率在51-8385次的单词总数只占全部单词数的5%。 这个统计分析有什么意义呢?实际上,由于考研的时间较短(38年),造成文本库小。因此,大多数单词只出现了很少的次数(小于10次),但恰恰也是因为文本库小,我们背单词时反而应该多背词频较低的词汇,因为它们可能很重要,只是由于考研时间短,还没有给它们机会多次出现。 反而,我们应该从词汇表中删除词频高的单词,因为从第一幅图中知道,词频最高的单词基本都是虚词,是人人熟知的词汇(stop words),将这些词和一些不常见的人名、地名等专有名词删除后,得到的单词列表共有6744个单词。而且!!!我自己一个一个地检查了这6744个单词,确保没有错误才开始制卡,大家可以放心使用! 2, 制作ANKI单词记忆卡_v1.0 (注,这份Anki词卡只是初版(v1.0),之后会综合大家的使用体验不断提升和优化) 我将这6744个单词制作成Anki卡片,方便考研的同学直接使用。关于Anki的使用和设置方法,请参阅我之前的文章 👉:「利用Anki快速背单词」最全攻略 实际上,这些单词大多都属于英语使用频率较高的单词。因此同样适用于不考研的一般英语学习者学习。 单词卡集合了以下六点内容,现在以单词emphasis为例,单词卡的正面有四点信息: 单词卡正面 卡片集成了真人美式发音,可以通过快捷键「R」来不断播放。 卡片的反面包括四点信息:
单词卡反面 安装方法和设置方案请参考帖子:「利用Anki快速背单词」最全攻略 单词卡下载方式: |
|