分享

资料搜索技术进阶II——专业猜词组合

 联合参谋学院 2015-03-03

资料搜索技术的核心方法,就是专业猜词,这一点我在4月份的日志似乎已经讲过。专业猜词组合,首先需要搜索者熟悉该专业领域内的行文习惯和常用词汇(含学者姓名),其次需要有很好的语文功底(汉语或外语,至少是阅读方面的功底)。否则很容易猜不准,起不到效果。以下说的搜索,都是开全文搜索,或者配合标题搜索展开的全文搜索。

1. 掐词

专业猜词的第一步就是找到掐住要害的词,简称掐词。一个猜词行动,或者是掐词和领域词(如legal, financial, educational等)的组合,或者是双掐词或多掐词的组合,绝无不用掐词而能大致猜中目标范围之理。以JSTOR为例,掐词的类型包括:(1)拉丁原词(或法文、德文相关源流术语),例如legitimus之于legitimacy(要研究合法性概念的话,legitimus是一个相当不错的掐词);(2)著名相关学者,例如研究语义模糊问题,放一个Zadeh,或研究语义模型问题,放一个Jackendorf,对限制特定结果作用很大;(3)变性加重(其实应该放到第3点的“连击”技术中,懒得改了),例如欲检索风险分析方法的整合,下一个"risk analysis"~1,再下一个methodology再下一个methodological,搜索结果立即从3017条压缩到834条,还可以扔专业词汇下去继续限制,下面介绍两条进一步限制的分支方法——(4)专业词汇,也就是使用频率区分度很大的词汇,如果你知道某些风险分析方法,随便挑几条扔进去,亲缘关系越远越好,例如toxicological和ecological,但假如你丢进去的是toxicological和epidemiological,那么很可能得到的是一堆关于评价健康或癌症风险的资料,这种办法并不是特别好的办法,除非最后救急用;(5)另一种办法是定性词汇,例如在(3)的基础上一股脑地扔上什么framework啊,integrate啊,comparative啊,model啊,效果简直是立竿见影。(常配合使用下文的近义连击)

加上标题搜索的配合,五个途径选择性地开火,几乎是导弹般的精确打击。一般来说,搜索命中率在60%左右为宜,剩下的40%相关性不足的结果,可以帮助你查看一些延伸信息,在写论文时也很重要。在JSTOR库中,总共出来20-30条结果(精确需要的是12-18条)是最佳定位,既能消化资料,又能看到延伸信息。精确命中率在30%-90%之间,都是可以接受的结果。

如果没有掐词的经验——完全不知道该扔什么词,请用标题搜索搜你所想要的主题,然后下你认为最相关的一篇文章,看完后将重要的相关词标出来,就大概有主意了。

2.注释树

SCI和SSCI有注释树功能,但对于本国使用者不是很方便,有时候我们需要自己动手做一些简易的注释树。

从注释树中发现经典文章并不难,难的是从注释树中发现只属于自己的针对性文献。一定要对注释树的问题点保持高度的敏感,稍微有一点风吹草动便有反应。

3.连击

连击包括两种:(1)近义连击,比如说想在英语世界中找类似于“任务分配条款”或“任务分配授权规范”之类的东东(中国特色产物,英美法中是没有严格对应物的),除了clause之外,可以一个劲地下task,mission,duty,assign(ment)……出来以后的第一篇结果 the duty to settle就是最相关的文章。近义连击的可行性,是因为英语写作中需要经常使用大量近义表述,避免重复。(2)变性连击,主要是名词性、动词性和形容词性的叠加。常用于非专业性术语(如education, educational, educate)或宽泛专业术语(如legislation, legislative, legislate)。

连击技术在查找与自己较为宽泛、无从下手的想法相关联的论文时较为有效,经常配合掐词技术使用。

4.期刊网升词频,外文库用词距

期刊网的词频和外文库的词距(以lexis的句法为例)是搜索技术中非常有用的工具。词频组合给语法中不存在大量连击的汉语提供了最好的提升相关性的手段,而词距一方面较方面处理词组,另一方面也较方面处理关联主题。例如 legality w/1 legitimacy,很多都是分析“合法性”方面的法理文章(如果能升词频就更完美了)。

词频组合搜索让我们根本不必猜测句子的写法,但是词距的搜索却很多时候需要我们猜测句子的组织。专业领域常用的单词搭配最好熟练,那种未上升到词组的紧密度、但却时常连结使用的搭配,往往决定了词距搜索的效率。一些外专业的搭配实际上也有很大帮助,例如probing w/1 mind对于行政记录诉讼而言。在学术研究和专业工作领域,现在是一个语言退化的时代,往往人们的作品都是由各种各样的业内习惯搭配组装而成。熟知这一点后,阅读原文文献时就要多留心扒词组,扒搭配。有时候不知道异种词性搭配的时候,你可以用间距较大的两个名词来定位目标,例如administrator w/5 value and administrative w/2 consideration,前一组就是不知道搭配的情况下,双名词目标定位技术。

5.找老师

如果以上方法皆未能获得所需求的资料,先要设法变换手法,请直接到图书馆找负责数据库的老师,有的老师人品很好,会当场耐心地给你讲解。他们常规搜索手法一般比较扎实,但不排除有个别南郭先生的存在。但是,即使是图书馆方面搜索技术最好的老师,可能也只能给你讲个大概。真正通这门手艺的是前沿学者,还有像阎天这样的青年俊杰。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多