分享

中文引擎检索技巧

 tengyg 2010-02-02

  随着Internet的飞速发展,WWW网上用户和网上资源均呈爆炸性的增长,要想从网上快速、高效、全面地获取自己所需要的中文信息资料,没有搜索引擎的帮助,将是十分困难的。下面笔者就搜索引擎的一些检索技巧,谈谈自己在实际应用中的体会,以帮助读者更好地使用中文搜索引擎来查找信息资料。
1 搜索引擎分类特点
  网络搜索引擎又称网络检索引擎,是一些在web中主动搜索信息并将其自动索引的web网点。广义上是指一种基于Internet的信息查询系统,包括信息存取、信息管理和信息检索;狭义上指一种为搜索Internet上的网页而设计的检索软件,其索引内容存储于可供查询的大型数据库中。
  根据搜索方式的不同,搜索引擎可分为二类:
  (1)全文(网页级)搜索(Full Text Search)引擎,例如天网。它通过运行一软件“Robot”或“Spider”,沿着WWW文件间的链接自动在网上漫游,不断搜集各类新网址及网页,记录URL文件的简明概要、关键字或索引,形成成千上万记录的数据库。只要用户输入查询的关键字在数据库中某主页出现,则这主页就会作为匹配结果返回给用户。全文搜索引擎有许多优点①全文搜索;②检索功能强。③信息更新速度快。但同时也有其不足之处:提供的信息虽然多而全,但可供选择的信息太多反而降低相应的命中率,并且提供的查询结果重复链接较多,层次结构不清晰,给人一种繁多杂乱的感觉。
  (2)目录(Directory)分类式(网站级)搜索引擎,如Yahoo!。它与全文搜索引擎的区别在于它是由人工建立的,通过“人工方式”将站点进行了分类,不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍,用户提出搜索要求时,搜索引擎只在网站的简介中搜索。其优点:①层次、结构清晰,易于查找;②多级类目,便于查询到具体明确的主题;③内容提要、分类目录下,有简明扼要的内容,可以使用户一目了然。其缺点是搜索范围较小;更新速度慢;查询交叉类目时容易遗漏。
  目前,这二类搜索引擎之间的界限越来越模糊,具体使用何种搜索引擎,要根据不同的检索目的来确定。
2 介绍几种WWW上重要的中文搜索引擎
2.1 天网中文搜索引擎(http://pccms.pku.edu.cn:8000/gbindex.htm):目前收集了约100万个网页(国内)和14万篇新闻组文章(香港),主要是中国教育和科研计算机网上的Web资源。用户可以选择查询匹配程度(精确匹配、模糊匹配)、查询范围(Web、Newsgroup)、显示模式(标准、简要)。天网检索命中率高,但重复网页较多。
2.2 中文雅虎搜索引擎(http://www.yahoo.com):是最常用的搜索引擎之一,提供三种信息查询方式:归类信息浏览、主题查询和关键词搜索。它以分类目录的形式将标引内容分为艺术、商业与经济、计算机和Internet、教育等14大类,用户可以关键词的方式查询它的目录。雅虎目录最大特点是信息的分类工作由十几位专家手工制作,更具科学性。与其他中文搜索引擎相比,中文Yahoo!在搜索速度方面占有优势。
2.3 悠游中文搜索引擎(http://www.):其界面和搜索方式与雅虎相似,有超智能的Robot系统,收集至少70万个中文网页,自动转换中文繁、简体。它有三种搜索方式:(1)“键入”,即“智慧型搜索、匹配型搜索”;(2)“选项”——如果用户不懂任何中文输入法,可以使用此项分类检索。它提供14类选项,每一选项包罗数个分类项目供用户选择;(3)“其它”——收录了6个英文搜索引擎,当用它查不出中文时,就去查英文。
2.4 网典搜索引擎(http:/www.wander.com.cn):是一个基于汉语语法、词的上下文和语义等中文信息处理技术,自动收集、识别Internet网上的www和News信息,智能化地提取摘要和关键词、建立索引、提供查询和对不良信息的监控、报警功能的网络信息自动发现和查询系统,采用可伸缩的分布式结构,提供多功能、智能化的用户检索接口,既可以使用www浏览器交互式的访问,也可以发E-mail来检索。
2.5 搜狐网络搜索引擎(http://www.):提供一个分类详尽的Web目录,须用树型结构对站点进行层次性分类。相对于其它的搜索引擎,搜狐中文检索系统具有以下的强劲优势:独特的中文分词功能;完美的分数评估体系;似人的思维包含模式,可以实现“专题搜索”,自行定义搜索专题。
2.6 司南中文网上信息检索(htpp://www.yippee.com.cn):结构模仿著名的搜索引擎雅虎,采用关键词检索机制,但是在内容上只收录以中国大陆为主,包括世界各个国家和地区在内的中文WWW网页的网址的中文信息,并将所有的信息分为自然科学、社会与文化、娱乐与休闲等14个大类。
2.7 搜索客全中文搜索引擎(http:/www.cseek.com):采用分类检索,将智能检索与人工分类相结合。特点是全中文检索;支持多种组合逻辑查询;有中国最大的站点数据库,每日更新1.5GB数据;能自动识别GB码和BIG5码。
  现将上述几种搜索引擎的异同点做如下比较(见表1)。
3 提高检索技巧,有效利用搜索引擎
3.1 确定使用哪一类搜索引擎,这是信息检索关键的一步。因为每个搜索引擎有各自的优缺点,在索引资源、用户界面、功能设置、检索速度、检索数量、收录范围、查询理论、查询技术、查询方法等方面都不尽相同,导致每个搜索引擎在信息查全率、查准率和易用上的差别也很大。
  一般地,如果用户查询的主题不太明确,不能准确地确定搜索的是什么或搜索的主题范围很广、概念很泛时,或只是对一般性的新闻事件进行搜索时采用目录式搜索引擎。例如:要了解澳门的一些情况,不妨使用Yahoo!目录分类式搜索引擎,选用“澳门现状”作为关键词进行查询,结果有1个网站、40个网页和20条有关的新闻符合检索字串要求。
  如果主题范围较狭小,有特定主题,或者是要获取有关交叉性、细节性问题的信息,检索时采用全文搜索引擎。例如想了解澳门大学的情况,用天网搜索引擎,选用“澳门大学”为关键词,返回结果有28条。如果用Yahoo!搜索引擎,查询结果只有1个网站和2条新闻符合检索字串,而且其中有好多信息是与主题词毫无关联的。
3.2 仔细研究一下所选搜索引擎主页上的说明,能够极大地提高搜索效率,节省时间。曾经有人做过一项调查,结果仅有20%的人仔细研究过各大搜索引擎的说明。其实花上一点时间,了解各种搜索引擎的功能、使用方面的特点和技巧,有助于快速高效地查找所需的信息资料。
3.3 使用操作符改善检索过程。许多站点允许使用布尔操作符,其基本操作是And、Or、Not。我们可以通过查看、分析搜索结果,再利用布尔操作符来扩大或缩小检索范围。
  如果返回的结果极少,可以检查一下你的关键字中有没有错别字或语法错误,也可能是搜索表达式所设定的范围太窄了,比如把一大串词都用“And”或者“+”连起来,结果当然很少了。为了尽可能全面检索到所需信息,有时需要适当扩大检索范围,去掉一些诸如“And”、“+”之类的连接符号,多加上一些同义词、近义词,用“Or”连接,以提高查全率。值得注意的是,用同义词进行查找,例如用“电脑”、“计算机”或“COMPUTER”进行搜索时,三者的查询结果是不同的。
  如果返回的结果成千上万,而且许多信息对用户来讲毫无意义,这时缩小检索范围是提高查准率的关键。构造恰当的检索表达式,输入尽可能多而精确的词或词组。对于所有的搜索引擎来说,在搜索框内输入的描述单词越多,查得的相关结果越少,提供的词组越精确,检索结果就越好。也可使用特定的词汇来缩小搜索范围,比如不用“动物”而用“熊猫”。使用固定词组,也就是具有固定搭配的词。利用进队检索功能,即利用前一次检索的结果作为后一次检索的范围,逐步缩小检索范围。例如中文雅虎搜索引擎有一些特定的进阶检索格式用来获得更精确的检索结果,其中之一是利用双引号查询完全符合关键字串的网站,当键入“电子音乐”时,会找出包含中文输入的网站,但是会忽略包含“电子爵士音乐”的网站。
  再比如要了解澳门一些大学的情况,选用“澳门”、“大学”为主题词,用逻辑“与”的关系,运用天网搜索引擎进行查询,返回结果有687条,查看其中有许多信息是毫无意义的。若以“澳门的大学”为主题词,命中0条。重新确定主题词,以“澳门”、’高等院校”作为关键词,用逻辑“与”的关系,查询结果有68条符合要求,从中就可以找到澳门的三所院校“澳门大学”、“澳门理工学院”、“澳门高等校际学院”。
3.4 打开多个窗口,进行多种尝试。同时打开多个窗口进行搜索,极大地减少等待时间,提高搜索效率。特别要注意的是,由于各种搜索引擎所覆盖的网页范围、数量以及侧重点是不一样的,所以当你第一次搜索失败时,不要轻易放弃,可用多种搜索引擎进行尝试。
3.5 要经常监控站点的各个主要搜索引擎的排名情况。要经常分析访问记录中通过查询搜索引擎而来的访问者,看看哪个引擎更有效、为什么,人们搜索了一些什么词等。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多