分享

通用搜索策略

 南书风 2007-04-17


■林小露/北京师范大学管理学院 北京 100875

当您要查找某个领域内学术资源的时候,您首先想到的是什么?期刊阅览室,光盘数据库,还是搜索引擎?当您想看最新的美国大片的时候,您是去电影院,音像店,还是在线影院?
不要认为我是在做市场调查,或许您的答案跟我一样:上网搜索。在这个知识快速更新的时代,我们已经学会了使用各种工具去帮助我们学习,简化我们的生活。而搜索引擎,便是人们查找信息时不约而同的选择。
也许您常用搜狗,熟悉百度,甚至对Google也一点儿都不陌生。那么,您是否曾经有过面对大量的搜索结果却束手无策的尴尬?是否曾经也为在信息泛滥的互联网上找不到您想要的资源而沮丧?这就是本文所要解决的问题:学会如何搜索。

1搜索之前的准备

好的开始是成功的一半,要进行一次完美的检索,我们需要做些搜索前的准备工作。
尽管现有的Internet检索工具已显示出其强大的功能,但所谓巧妇难为无米之炊,它们不可能检索到网上没有的内容,同时,有些内容虽然存在网上,却因为各种原因,而成为漏网之鱼。所以在使用搜索引擎之前,应该先花几秒钟想一下:我要找的东西网上可能有吗?如果有,可能在哪里,是什么样子?网页上会含有哪些关键词?就万维网目前的状况而言,还没有谁能够检索整个万维网的所有文档,如果有某个网络检索工具宣称自己做到了这一点,那一定是夸大其词。
有些东西是根本不需要上网搜索的,比如要找某个公司的电话,打个114的速度大概比搜索引擎快得多。又有些问题,可能很难用合适的关键词描述,或者不能直接用Internet检索工具找到,不妨尝试找个精通这个问题的朋友,或者寻找这方面的热门论坛来问,这也是一种检索方法。有时,我们能选择的最好方法是放弃网络,跑一趟附近的图书馆。图书馆里有网上找不到的“成吨”的信息,这些信息比起来自Internet的信息资源更加权威可信,而且图书馆员一般是受过训练的专家,他们通常会很乐意帮你找东西。当你在网上无处可去的时候,试一下真正的“人工智能搜索引擎”吧,你会发现他们真的非常优秀!

2了解可用的检索工具

目前通用的网络检索工具大致可分为四种类型:搜索引擎、元搜索引擎、网络资源目录和“看不见的网页”,它们各有特点,若能充分利用其功能,能收到意想不到的效果。

2.1搜索引擎和元搜索引擎
特点:使用关键词检索,将关键词与网页中出现的词精确匹配,可对网页进行全文检索;数据库由蜘蛛程序自动搜集的内容构成,人工干预很少,没有主题目录和分级浏览;检索的范围宽广,从某个狭小的专门领域的网络资源到90%以上的Web文档都能被搜索引擎检索到;元搜索引擎快速而简单地将检索提问提交给多个不同的搜索引擎,然后将返回结果以统一的格式展现(注意:通常元搜索引擎仅从普通搜索引擎的检索结果中返回大约10%的结果)。
实例:搜索引擎如Google、 Alltheweb等,元搜索引擎如Metacrawler、Ixquick等。

2.2网络资源目录
特点:人工挑选的网站集合(有时编辑者是某一领域的专家),对网站内容有介绍和评估,并努力保持更新,但对于较大规模的主题目录来说要保持高频率的更新不太可能;一般以等级式的主题目录组织内容;对每一个收录的网站,通常有人工注解(但yahoo没有);支持浏览方式,适合主题比较宽泛的检索;没有全文检索,检索的仅仅是目录和注解,检索时不能像搜索引擎那么专指,因为在网页中出现的词未必能够用作提问关键词。
实例:学术性较强的主题目录如Librarians‘ Index to the Internet、Infomine,大众化的主题目录如Yahoo!、About.com等,Internet上存在成千上万的主题目录,涵盖了任何一个我们可能想到的主题。

2.3看不见的网页(专门数据库)
特点:不能被普通搜索引擎搜到;包含许多动态信息;通过某个网页中的检索框来检索某个特定数据库的内容,可以是任何主题。
通过主题目录或者通用搜索引擎都可以找到可供检索的某领域的特定数据库,然后可进入这些数据库中利用其站内检索工具进行进一步的查询。也可以通过一些看不见的网页或免费数据库资源站点进入这些数据库,如The Invisible Web Directory(http://www.)。

3分析信息需求并选择合适的检索工具

在检索之前先考虑清楚自己要找的是什么,并且以一系列问题的形式把它用纸笔记下来,对于Internet信息检索的新手来说这绝对是个好习惯。我的检索是以找到某个问题的精确答案为目标,还是希望通过检索扩展自己在某个领域的知识?我检索的是否是一个非常特殊的主题,还是检索时会返回大量无关信息的宽泛主题?检索词是否存在同义、近义词?思考这些问题将有助于准确定位自己的检索起点,不至于在后面的检索中迷失目标。当积累了足够的经验之后,就可以跳过这一步直接进行检索了。
对自己的需求有一定的认识之后,便可以选择工具帮助自己找答案了。每一种检索工具都有自己的特点,它们在搜索范围、功能和质量方面大相径庭,没有绝对的高下之分。但就某一次特定的检索而言,选择不同的检索工具,检索结果的差别却很大,错误的选择不仅可能颗粒无收,还会浪费掉大量的时间。如果为每一次检索都选择合适的检索工具,那么每次得到满意结果的概率将会大大增加。
根据自己对检索主题的已知部分和需要检索部分的了解,可以从几种不同类型的网络检索工具开始。最常见的选择是使用搜索引擎还是网络资源目录。一般的规则是,如果您在找什么特殊的内容或文件,那么使用全文搜索引擎如Google和百度,如果想从总体上或比较全面的了解一个主题,那么使用网络资源目录如yahoo。对于特殊类型的信息考虑使用特殊的搜索工具,比如找人或找地点,那么使用专业的寻人引擎或地图和位置搜索网站。事实上,几乎每种主题都有特殊的搜索工具,有兴趣的读者可以参考中文搜索引擎指南网(http://www.)上各类搜索引擎的相关介绍。

4学会使用关键词

目前搜索引擎对自然语言句子的处理仍然不尽如人意,要想得到比较多的相关结果,关键词仍然是根本。因此,当我们决定选取某个搜索引擎作为检索起点的时候,我们将面临如何确定关键词的问题。
初学者容易犯的错误之一就是检索提问中缺少足够多的关键词。根据统计,大多数用户平均每次检索使用的关键词为1.5个。对于我们准确地找到Internet信息资源的目标而言,这个数字是不够的。因此,当你的检索结果不理想的时候首先应该考虑的就是关键词数量是否充分。
举个例子,如果一个陌生人对我们说:“北京”,我们可能会觉得莫名其妙,因为我们不知道他想说的是有关“北京”哪方面的事情,是天气,人口,还是北京某个区的情况。同样,如果在搜索引擎中输入一个关键词“北京”,搜索引擎也不知道你要找什么,那就可能返回很多莫名其妙的结果。因此读者应养成使用多个关键词搜索的习惯,当然,大多数情况下使用两个关键词搜索已经足够了,关键词与关键词之间以空格隔开。
当然,要从信息需求的描述中提取出合适的关键词,有时会令人感到很迷茫。如果需求比较复杂,难以用几个关键字描述清楚时,不妨也试一试输入一个句子,或许能柳暗花明呢。

5尝试布尔检索

要想得到好的结果,就必须对布尔检索有基本的了解。布尔检索通过使用逻辑操作符和规定的句法来连接关键词,从而构成功能强大的检索提问,提高检索的精确度。
常见的布尔逻辑操作符及其作用如下:

5.1AND
AND操作符连接的两个关键词都必须出现在检索结果中。某些检索工具规定用符号“+”代替AND。AND操作符可以缩小检索的范围,得到更加精确的检索结果。如输入“软件 AND 下载”,所有和软件下载有关的网页都将出现在检索结果中。

5.2OR
用OR操作符连接的两个关键词必须有一个出现在检索结果中。OR操作符可以扩大检索范围,得到更广泛的检索结果。如输入“欧洲 OR 英国”,所得到的检索结果中至少出现“欧洲”或“英国”,或二者都出现。

5.3NOT
紧跟在NOT操作符后面的关键词不能出现在检索结果中。某些检索工具规定用NOT或者符号“-”代替NOT。NOT操作符的作用是为了去除无关的搜索结果,提高搜索结果相关性。例如想了解佛教中的天龙八部是指哪八部,如果直接在搜索引擎中输入“天龙八部”,将得到无数有关金庸小说《天龙八部》的检索结果,如果我们修改一下输入的关键词,变成“天龙八部 NOT 金庸”,则能大大减少这部小说给我们带来的干扰。
不过需要注意的是,不同的搜索引擎有关布尔逻辑操作符的使用略有不同,在具体应用的过程中,应该先阅读一下相关的搜索引擎帮助系统。

6使用双引号

如果查找的是一个词组或多个汉字,最好的办法就是将它们用英文的双引号括起来,这样得到的结果最少、最精确。基本上所有的检索工具都支持这种用双引号表示词组的方式。比如检索乐队组合“动力火车”,Google等搜索引擎会很聪明地将它划分为“动力”和“火车”两个词进行检索,这样检索结果中肯定有关于火车动力学、热力学的文档,而如果使用双引号,在搜索引擎中输入“”动力火车””,那检索工具就会把这4个汉字当作一个整体进行检索,自然就避开了不希望的结果。
当使用双引号的时候,某些细微的地方必须引起注意。例如在用双引号把词组括起来后,词与词之间的分隔符变得和关键词本身一样重要了。通常英文中的词组,词与词之间只有一个空格,如果不小心多键入了一个空格,检索就会失败。

7思考检索结果

一次成功的检索由两个部分组成:一个设计优秀的检索提问和一个准确可信的检索结果。在点击任何一条检索结果之前,快速地分析一下检索结果的标题、网址、摘要,会有助于读者选出更准确的结果,从而节省大量的时间。当然,到底哪一个检索结果对于检索策略的调整更有参考价值,还是取决于自己的信息需求,评估网络内容的质量和权威性也是检索的重要步骤。
一次成功的检索也经常是由好几次检索组成的,如果对自己检索的内容不熟,即使是检索专家,也不能保证第一次检索就能找到想要的内容。检索专家会先用简单的关键词测试,他们不会忙着仔细查看各条检索结果,而是先从检索结果页面里寻找更多的信息,再设计一个更好的关键词重新检索,这样重复多次以后,就能设计出很棒的检索关键词,也就能检索到满意的检索结果了。

8避免常见错误

读者一定遇到过这样的情况:有时你做的所有检索尝试都不能得到有用的检索结果。当你的大量努力都被证明是白费劲,感觉自己已经撞进了一条死胡同,似乎没有希望找到预料中的信息了。这个时候,请不要放弃,认真回顾检查你的搜索过程,也许只是因为一个小差错。一个看上去毫无希望的搜索,很有可能在你检讨完自己的搜索策略后获得成功。
搜索专家们总结了初学者搜索时容易犯的5个低级错误和解决方法,在此推荐给读者作为参考。

● 错别字
互联网用户对所找主题不熟悉、同音字、网络通假字泛滥等各种原因导致的错误关键词很多,但用户很难自己发现自己输了错别字,只会怪搜索引擎找不到信息。所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。一些搜索引擎如Google等也会对用户输入的错别字进行提示,读者在进行检索时可以参照提示重新输入关键词。

● 关键词太常见
如果你输入的关键词曝光率很高,以至于出现在成百万网页中,那么这样的关键词事实上不能被用来帮你找到什么有用的内容。比如,搜索“计算机”, 有无数网站提供跟“计算机”相关的信息。所以当搜索结果太多太乱的时候,应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“计算机 发展趋势”这样特殊的搜索关键词,会给你真正有用的结果。当然,如果你想找的是一串汽车网站或一串MP3网站,那么用“汽车”、“MP3”搜索就是正确的。

● 多义词
要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。

● 不合理的关键词
搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“上海到成都列车时刻表”。网友错把搜索引擎当成是听话的服务员了,其实搜索引擎是很机械的,当你用关键词搜索的时候,它只会把含有这个关键词的网页找出来,根本不管网页上的内容是什么。而问题在于,没有一个网页上会含有“现代爱情故事歌词”和“上海到成都列车时刻表”这样的关键词,所以搜索引擎也找不到这样的网页。但是真正含有你想找的内容的网页,应该含有的关键词是“现代爱情故事”、“歌词”,“上海”、“成都”、“列车”、“时刻表”,所以应该这样搜索:“现代爱情故事 歌词”、“上海 成都 列车 时刻表”。什么意思呢?不要用自己心中想的大白话去搜索,当搜索结果太少甚至没有的时候,应该考虑输入更简单的关键词来搜索,猜测所需要的网页中可能含有的关键词,然后用那些关键词搜索。

● 在错误的地方搜索
有这样一个发人深省的案例:2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供检索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页检索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找。

结语
网络信息检索具有非常强的实践性,远非一两天的功夫就能掌握,需要在平时的搜索过程中不断运用一些搜索技巧,总结一下成功或失败的原因,只有这样,才能切实提高自己的搜索技能,在网络世界中游刃有余。
网络检索工具是机械的,聪明的是人本身。因此,在检索过程中,转动你的脑子,充分利用各种工具,那么,不管是什么样的难题,在经过一番努力之后总能迎刃而解。最后,请记住这句话:知识有两种,你自己知道某种知识本身,或者你知道哪里能找到这种知识。这就是信息检索的意义。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多