如果收到大学录取通知书后,你有一个长达8个月的假期,打算去做点什么? 去山区支教,当志愿者?跨上背包,来个“迷你版”的间隔年旅行?开启学霸模式,在当地大学提前修两门专业课? …… 有个叫Klio的姑娘。她幸运地提前8个月就拿到了美国名校Rice的录取offer。 手握Rice CS 提前录取offer,萌妹子Klio 竟然一天都没有粗去浪,就提前开启了自己的IT生涯。
从10年级到12年级,在准备留学的道路上踩过不少坑,上过几回当,着实没少走弯路。这个坚信技术能让世界更美好的妹子,决定趁着去念大学前的闲工夫,为师弟师妹们做点什么。
在自己就读的国际高中低年级蹲点了2周,聊(撩)过上百个师弟师妹后,Klio发现:美本党们全身上下都是痛点。 标准化考试 :赶上了2016的SAT改革,老题统统作废,市面可用的参考资料屈指可数。 背景提升:百度一下,遍地都是推广,然而真正有竞争力的好活动,可遇不可求。 申请文书:都说招生官总是“恋”上好essay,然而过来人一半以上没躲过文书中介的坑。
面对全身都是痛点的吐槽,没资源、没背景、没社会经验的Klio觉得,自己最有发言权的还是标准化考试。
师弟师妹们感到前途迷茫...
于是,她决定帮大家研究一份应对改革后SAT的靠谱词汇资料。 单词这个东东,真真是简单到不值一提,又复杂到一言难尽。 随手搜搜百度文库,京东当当书城,同类考试的单词书多的让人眼花缭乱。 然而,像新东方的红宝书那样经得起考验的,却又能有几本? 面对一门考试,究竟要背哪些词?确定了背诵范围后,又要背这些单词的哪些释义?过来人Klio认为,解决好这两个问题,备考效率将直线提高。 思路有了,具体要从何开始呢?
那么新SAT,Klio认为自然也要从官方材料入手。 不同的是,21世纪已经过去小20年了,新时代的骚年们,不需要用绳命数数了,因为他们会写!代!码!
统计结果不看不知道,一看吓一跳,什么the,a, of,that,才是词频中的霸王词...... 事实上,拿着手里跑出来的结果,Klio开始怀疑人生...... 比如,如何定义一个单词的出现频率?真的就是用程序数一遍它出现过的次数么?骚年,too simple too naive啦! 从跑出来的excel表中看到,很多单独统计的单词,其实来自于同一个词的变形。比如,结果显示excerpt共出现了3次,而excerpted出现了29次。事实上他俩说的是一个词:excerpt,只不过在阅读的斜体字中文章来源处,有大量的“this passage is excerpted from…”的表达,拉高了excepted的出现频数。 没错,英语中有很多单词都有不规则的变型词,举几个初中阶段的例子给你看: swim swum swimming forget forgot forgotten 那么诸如这样的单词,在做词频统计的时候,是算一个词,还是算多个词?统计词频,是合并?还是分开?如果要合并,技术上怎么操作?查阅了诸多语言学和技术文献后,Klio终于找到了答案。 英美权威的语料库在进行词频统计时,会根据词性对变型词进行词频的合并计数。 这就好比一个妹子,时而呈现小清新的画风,时而呈现霸道总裁画风,但无论风格怎样多变,只要她出现在大party上的总次数足够多,我们就认定她是一个social 女皇! 单词也是一样,你可以把变型词看做一个站台的家伙,但是不管怎么个变法,只要都还原成原型词,算出总的出现概率,就能比较精确的判断这个词是否常见、常考。 因此,基于这样一种统计的规则,单词出现的频次,是指把所有的变形都进行合并统计后的计数。 如果说当年的老俞是用生命数数,那么Klio各种翻文献,找语言学理论,找算法,则是用生命在思考了。 实现这个变型词的合并统计,用到了一个超级有用的东东叫list of lemma,对此,Klio表示还可以聊上三天三夜,此处省略一万字… 本着这样一个对单词不同形态的统计原则,Klio代码一写呀,一张新SAT官方语料的单词词频汇总excel表就出来了。 ▼ 有了全部新版SAT官方语料的单词词频统计,是不是就大功告成了呢?
作为一个被老SAT批判性阅读虐过的孩纸,Klio确定一定以及肯定,答案是:NO!!! WHY? 简单说来就是:考过的内容indicates了什么重要,但无法indicate什么不重要。换言之:考过的都是重点,然而目前还没考过的,你判断不出哪些同样也是重点。 Klio当年参加中考时,全校童鞋都在刷一本书,叫《5年中考3年模拟》,据说...他们滴老师当年参加高考的时候,也刷过类似的书... 老师告诉他们,把连续多年的真题都刷一遍,你能掌握80%以上的出题要点,剩下的20%就看造化了。 这个逻辑解释老SAT很说得通。把2005年以后的亚太北美全部考卷刷上几遍,上了考场,那可真真是不会做题也会蒙... 但是改革后就不同了,官方资料太少,资料上有的,一定是重点,资料上没的,也要去推测,哪些可能也是重点。 这样的烧脑思考,正对了ITer们的口味。 Klio后半段的工作,focus在了“科学推断”上。
所谓的学术单词,就是无论是你学物理,还是学数学,学天文还是学历史,都会在教材啊、paper啊,lecture啊,频繁遇到的“万金油”单词。 比如,写神马论文都离不开literature review,那么review就是一个典型的academic word。 做物理化学生物医学实验,社科人文问卷调查,都要分析数据,那么分析,analyse也是一个典型的academic word。 美国有一个超级强大的当代语料库COCA,COCA基于上亿语料,总结出了3000个核心的academic words,还计算了这些单词在各类学科中出现频率的分布。分布的越平均,越符合“学术单词”的定义。看着计算dispersion的分类,history, humanity, literature, science, news等等,简直跟新SAT的考察类别无缝对接,真的是要激动哭了。 所谓有人的地方就有江湖,除了COCA的核心3000,雅思里还有一份专门的学术词表,叫AWL(academic word list),COCA还特别强调了自己与AWL的不同以及自己为何更流弊。 看着最最权威的白头发老爷爷们互相掐,也是醉了。不过对于Klio而言,一切权威的学术词表,都要拿来分析一下。 于是乎,结合英美最权威的AWL和COCA核心学术单词表以及老SAT全部真题的词频统计(方法如上,Klio没有直接拿市面出版的SAT单词书做样本,因为无法确定这些书收录词条的原则和算法。看,Rice的人就是这么学术严谨),Klio开始做交叉分析,得到了4类单词: 这样,其实得到了4个单词list,对应4类不同的背诵目标: 就这样,耗时近2个月,Klio为师弟师妹们制作了一套“根红苗正”的新SAT备考单词表。 把这些单词表导入欧路词典,补充上Merriam-Webster和American Heritage Dictionary 里的中英文释义、同义词、例句。瞬间觉得,当年备考时买的那些SAT单词书都弱爆了。 这2个月的时间,Klio过的和申请季一样充实。没有了对未来的不确定与焦虑,更坦然的投入到工作中去。 这中间,也有很多surprise吓到了她自己。比如,那个“我是Rice ED生”的骄傲,在面对pdf无乱码转word的现实问题时,就被击的灰飞烟灭。 其实,现实才是最好的老师,为了解决一个问题而行动,收获往往意想不到。 搜学术期刊、找相关文献、确定算法、验证数据、交叉分析,Klio感觉自己提前8个月,就开启了大学的学术生活。
扫扫下方二维码 回复“SAT”获得完整词表 |
|
来自: 昵称30276536 > 《English》