分享

四种中文搜索引擎比较

  2006-08-09
 

而今,因特网的发展也许不能用日新月异来形容,因为它每时每刻都在发生变化。由于因特网上的信息是极其无序的,信息量越大,越难被利用。没有人对因特网上信息的有效性和有序性负责,因此如何获取和利用因特网上的信息就成了一个大问题。人们想要在因特网上查找自己所需要的资料,就犹如大海捞针一样。搜索引擎的出现在一定程度上帮助人们解决了问题,但是搜索引擎本身也存在自身的缺陷,再加上中文搜索引擎中的中文分词和切词技术发展的不完善,因此,人们在使用检索技术,通过搜索引擎在因特网上查找所需要的信息,成为了一个需要研究和解决的课题。基于这个目的,笔者通过对比四个比较有规模的中文搜索引擎,向用户展示了他们分别所适合的检索对象,并提出了一些检索的小技巧,敬请专家学者批评指正。

 

一、             网络信息的发展带动了搜索引擎的发展

1 搜索引擎的兴起

据发表在《科学》杂志1997年7月文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9T,并且仍以每个月翻一番的速度增长。在如此浩瀚的信息海洋中寻找信息,就犹如“大海捞针”。为了解决寻求信息这一难题,搜索引擎应运而生了。这里所说的搜索引擎是指因特网上专门提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息①。

2 搜索引擎的发展

现代意义上的搜索引擎的祖先,是1990年有蒙利特尔大学学生Alan Emtage发明的 Archie,主要用来检索散布在各个分散的FTP主机中的大量文件。随后,Matthew Gray开发了World wide web Wanderer,即搜索引擎的“机器人”程序,刚开始它只是用来统计互联网上的服务器数,后来则发展为能够检索网站域名。RBSE是第一个在搜索结果排列中因如关键字串匹配程序概念的引擎。最早现代意义上的搜索引擎出现于1994年7月。当时Michel Mauldin 将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与前不可同日而语。比如最近风头正劲的Google,其数据库已达到30亿之巨。随着因特网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inttomi,它本身并不是直接面向用户的搜索引擎,但象包括Qverture,LookSmart,MSN,HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类,搜狐和新浪用的是它的技术。      因此从这个意义上说,他们是搜索引擎的搜索引擎。

 

3 搜索引擎在网络信息检索中有着举足轻重的作用

    搜索引擎的出现大大节省了人们搜寻信息的时间,也减轻了人们记忆网址的负荷。搜索引擎可以大量的用物理存储介质来“记忆”网址。它的记忆时间和记忆量比人脑长得多也大得多,而且它的记忆类型也有严格的归类。因此,利用搜索引擎这个记忆库调取数据,可以既省却大脑苦苦记忆网站的烦恼,也会大大提高进入网站的效率和速度。除此之外,人们还可以通过其丰富的分类来扩展思路。例如:我们搜索“音乐”这个关键词时,搜索引擎就会“制作音乐”、“音乐会”、“音乐下载”等许多分类和相关链接,而许多分类则我们往往想到的。显然,搜索引擎使得我们了解网络信息的精力付出达到最小化。因此,搜索引擎在网络信息检索中有着举足轻重的作用。

 

二、比较四大典型中文搜索引擎(一搜、中国搜索、百度、Google)

既然搜索引擎如此重要,而现在有名有姓的搜索引擎如此之多。我们又如何选择搜索引擎来搜索信息呢?针对我们采用的汉语这种语种,搜索引擎技术中本身存在着分词切词难题,在这里就只比较四大典型的中文搜索引擎,以期提高检索中文信息的效率。他们分别是一搜、中国搜索、百度和Google。

 

1         简单普通关键词的比较

所谓普通关键词,就是不含任何技巧性的基本关键词的搜索,比如“长城”,“射雕英雄传”等常见、很普通的名词的搜索。

在这里我们想了解一下有关长城的基本情况,那么我们在四种搜索引擎中分别输入关键词“长城”,其结果如下表所示:

 

长城

搜索范围

搜索结果

用时

一搜

默认所有

7,610,000条结果

0.05秒

中国搜索

默认所有

11,800,001 条结果

0.006秒

百度

默认所有

10,700,000条结果

0.001秒

Google

默认所有

5,900,000条结果

0.06秒

       表1 简单普通关键词的比较(资料来源:一搜,中国搜索,百度,Google)

   搜索感受:从搜索时间上来看,百度搜索引擎的速度最快,Google搜索的速度最慢;从搜索结果来看,中国搜索的结果最多,Google搜索的结果最少;四家均给出了一定的参考关键词;其中只有中国搜索给出了关于“长城”的其他相关链接,例如图片,新闻等。其第一页的新闻都是2005年12月5号的,因为测试搜索的时间是2005年12月5号,所以“中国搜索”给出的搜索结果更另人满意。根据上述的反馈信息综合来看,此次搜索感受是:“中国搜索”的表现最佳;虽然百度是在搜索速度上胜出,但是并没有象“中国搜索”一样给出普通用户最想看的时效性最强的新闻,因此,相信搜索用户会更倾向于“中国搜索”的表现。

2         技巧性关键词搜索的比较

技巧性关键词需要搜索引擎有一定判断力才能保证搜索结果的准确性。比方说“长城长”这个关键词,用户到底搜索的是包含有“长城长”的音乐,还是想知道“长城到底有多少”的信息?下面让我们来看看四大搜索引擎的表现——

比如说,我们要搜索范晓萱的《健康歌》,输入关键词健康范,其结果为:

 

健康范

搜索范围

搜索结果

用时

一搜

默认所有

1,490,000条结果

0.74秒

中国搜索

默认所有

9,590,000条结果

0.425秒

百度

默认所有

290,000条结果

0.146秒

Google

默认所有

2,000,000条结果

0.39秒

       表2 技巧性关键词的比较(资料来源:一搜,中国搜索,百度,Google)

搜索感受:在搜索结果页面中,“一搜”、中国搜索在前几条找到了“健康歌 范晓萱”的信息;从给出的参考关键词来看,百度和Google都没有给出参考关键词,中国搜索给出的参考关键词准确率最好,除了“一搜”和中国搜索外,百度和Google没有给出任何关于“范晓萱健康歌”的信息。

综合上述的反馈信息,从搜索准确度来看,觉得中国搜索让人最为满意,“一搜”其次;在参考关键词方面也是中国搜索最佳了。

3         图片搜索的比较

图片搜索是顺应网民需求而推出的一项专业搜索技术,它可以通过图片名称、大小等特征帮助网民高效地搜索到所需要的图片。

四种搜索引擎中,就只有“一搜”的图片搜索方式提供有“翻译为英文后搜索”。虽然四种搜索引擎图片搜索下都有下属分类,但是“一搜”,百度,Google的下属分类都大同小异。只有“中国搜索”下设“最新更新”,“热门分类”,“缤纷专题”,“排行榜”,“新闻快车”,“超级爆笑”,“明星图库”分类。每一个分类下面又有更小的分类。因此,网民们可以根据自己的需求,在分类里一级一级寻求自己需要的图片。我们再来看看通过输入关键词来搜索来检索图片,例如我们想找一些“流程图”的图片,下面是四种搜索引擎的搜索结果:

 

流程图

搜索范围

搜索结果

用时

一搜

默认所有

4,329条结果

0.123秒

中国搜索

默认所有

15,893条结果

0.002秒

百度

默认所有

17,900条结果

0.003秒

Google

默认所有

23,600条结果

0.20秒

表3 图片搜索的比较(资料来源:一搜,中国搜索,百度,Google)

搜索感受:从检索结果来看,Google的检索结果最多,百度其次,中国搜索也有1万多条;从搜索时间来看,中国搜索的用时最少,百度次之。

综合上述反馈信息,觉得中国搜索不管是在分类搜索方面还是在关键词检索方面都最令人满意。

 

4         新闻搜索的比较

世界之大,每天都会发生各种各样的事情,因此人们也迫切需要了解当天发生了什么事情,想了解自己迫切需要了解的新闻。所以我们在这里对四大搜索引擎的新闻搜索进行比较是非常有必要的。

最近的一个热门新闻就是关于“台湾选举”的问题了,所以我们用关键词“台湾选举”来搜索一下新闻,让我们来看看这四个搜索引擎的表现——

 

台湾选举

搜索范围

搜索结果

用时

一搜

新闻全文

138条结果

0.13秒

中国搜索

新闻全文

5,499条结果

0.294秒

百度

新闻全文

6,390条结果

0.056秒

Google

新闻全文

489条结果

0.21秒

表4 新闻搜索的比较(资料来源:一搜,中国搜索,百度,Google)

 

搜索感受:从检索结果来看,百度的结果最多,中国搜索次之,一搜的结果最少;从检索效率来看,百度的检索速度最快,中国搜索最慢。从新闻的适时性来看,一搜最近的新闻是2005年12月5日15点的,而中国搜索的最近的新闻是2005年12月5日18:09的,百度最近的是2005年12月5日18:02分,Google则是2005年12月5日早晨的新闻。搜索时间是2005年12月5日21:20。因此从新闻的时效性要求来看,中国搜索和百度的表现最好。再从参考关键词来看,只有中国搜索提供了参考关键词,而且其准确度也比较高。

综合上述信息反馈,中国搜索和百度的表现很不错,因此,网民们可以采用这两种搜索引擎搜索新闻。

 

5         音乐搜索的比较

在当今这个经济快速发展的时代,娱乐业也发展得更加迅猛,许多有实力的新歌手层出不穷,给人们忙碌的生活增添了不少色彩。人们在工作学习闲暇听听音乐,放松一下自我,缓解一下压力也变得越来越重要。因此,人们对音乐搜索的需求也越来越大。为此,我们来比较一下四大搜索引擎在音乐搜索方面的表现吧——

随着韩国电视剧《大长今》的推出,在国内翻唱的版本也推出了不少,我们想搜索一下《大长今》所有的翻唱版,其结果如下:

 

大长今

搜索范围

搜索结果

用时

一搜

全部歌曲

906条结果

0.003秒

中国搜索

全部歌曲

1,389条结果

0.004秒

百度

全部歌曲

1,770条结果

0.003秒

Google

 

 

 

表5 音乐搜索的比较(资料来源:一搜,中国搜索,百度,Google)

搜索感受:Google不支持音乐搜索,比较其他三个搜索引擎,从搜索结果来看,百度的搜索结果最多,中国搜索其次;从搜索效率来看,“一搜”和百度的速度一样,中国搜索的速度也慢不了多少。虽然“一搜”搜索的结果并不如其他两中搜索引擎,但是“一搜”提供了比较详细的分类目录,用户可以通过分类目录搜索自己喜欢的歌曲。

综合上述信息反馈,觉得“一搜”最适合搜索音乐。

6         文挡搜索的比较

互联网上除一般网页外,还有如PDF、DOC、PPT之类的文档文件,虽然这些文件不像HTM那么多,但这些文件通常会包含一些别处没有的重要资料,因此具有独特的价值和吸引力!所以对网络中这部分资源的挖掘和利用也是搜索引擎的一个重要功能。在四大搜索引擎中支持PDF、DOC、PPT 等文件格式的检索。但是,除了“一搜”提供了点击相应格式就可以进行相应文档搜索的“化繁为简”式搜索技术外,其他三个搜索引擎的专业文档的搜索过程都比简单的网页搜索要复杂得多。他们必须在搜索关键词中输入诸如filetype:doc的语法,才能检索到所需要的专业文档。还值得一提的是,因为“一搜”主要是面向中国用户的,所以这项功能可算是大大弥补了国内对专业文档搜索服务的空白。由此,我们可以看出,“一搜”在文档搜索方面最令人满意。

 

7         商业信息搜索的比较

“点击出的财富”是网络交易的最大魅力!如果我们的轻轻松松一点击就可以让我们豁免千万里的奔波劳苦,几分钟的搜索就可以让我门将商界风云尽收眼底,这是一件多么惬意的事情啊。

经过比较,中国搜索以其商业、行业搜索引擎提供了繁多产品供应和求购分类、庞大的企业信息库、区域化、时段化的搜索设计,商业机会、行业咨询、技术文章等辅助信息的提供……这些在搜索用户角度进行的搜索设计,充分地说明了“专业”这两个字。

因此,如果用户要搜索商业信息的话,建议大家使用中国搜索引擎。

 

8         辅助信息的比较

生活中我们需要大量的各种各样的信息,例如旅行前要看看天气预报、寄信时要知道邮政编码,远方的朋友来时提供当地的飞机航班、列车时刻表等……这些信息平时看起来作用并不大,但一到用时就缺他不行了。搜索引擎及时应对用户的需求,提供了辅助信息的搜索。因此我们对四大典型的中文搜索引擎的辅助信息进行比较也是很有必要的。

一搜:提供了一些简单的辅助信息的搜索。

中国搜索:提供计算器计算表达式,量制转换对不同量制单位之间进行换算,IP查询,英汉双向词典,邮政编码查询,电话区号查询。

百度:提供的辅助信息搜索包括拼音提示,错别字提示,英汉互译词典,计算器和度量单位的转换,股票、列车时刻表以及飞机航班的查询,天气查询,外汇牌价、电视预报、万年历、学历查询搜索IP地址以及地区(邮政编码和电话区号)等大量辅助信息的搜索。

Google:提供的辅助信息搜索主要包括拼音汉字的转换,计算器,货币转换,错别字改正,中英文字典,天气查询,股票查询,邮政区号查询,手机号码,列车时刻表和飞机航班的查询以及一些专用词汇的定义。

经过比较,百度不论在繁多的数量上,还是多个颇具创新理念的设计上,它都可以算是辅助信息搜索业界中的经典。百度的辅助信息搜索彻底颠覆了人们对搜索引擎只能单一进行网页搜索的一惯看法。

 

9         参考关键词的比较

参考关键词是一条不起眼,却极其有效的搜索关键词组成方式,它可以大大提高搜索结果的质量,使搜索的结果更加精确。对于普通用户来说,这是一项非常好的,可以开拓关键词组成思路的搜索功能。对于搜索引擎来说,这却是一项需要一定智能化的搜索判断技术,它需要搜索引擎能够尽可能准确地分析当前用户输入的关键词,并能即时给出尽可能的符合关键词搜索意图的参考关键词。

我们使用“微软历史”作为关键词进行搜索来比较这四个搜索引擎的参考关键词。结果如下:

一搜:微软拼音输入法,微软拼音,微软拼音输入法2003,中国历史,微软输入法,微软公司,历史的天空,更多相关搜索。

中国搜索:微软公司的历史。

百度:微软的历史,微软公司历史,微软公司发展历史,微软产品的历史,微软 发展历史,微软产品的发展历史,微软,微软中国,微软拼音输入法,更多相关搜索。

Google:微软,微软历史论坛,历史,微软中国历史,微软历史论文,微软历史地图,微软历史课件,微软认证历史,微软中国,历史论文。

对比结果,一搜给出的参考关键词的确很多,但是都是关于“微软”的,因此失误也很大,没有一个是我们想要的结果;百度搜索给出的关键词质量最好、最准确,其中除了最后一个关键词与我们想要的内容的联系不大之外,其他的都与我们想要搜索的内容有比较紧密的联系。此外,Google的参考关键词给得也比较令人满意。但是相比之下,我们还是更加乐意使用百度搜索。

 

三、结论

根据上面对四大典型中文搜索引擎的比较,我们可以得出这样的结论,搜索图片信息、商业信息和新闻信息时,采用中国搜索;如果就一般的关键词和技巧性关键词搜索,采用中国搜索;搜索音乐信息、文档信息时,使用一搜;搜索新闻信息和辅助信息,采用百度;搜索辅助信息也可以采用Google;如果你觉得你输入的关键词不够准确,需要参考关键词帮助你搜索,那么你可以采用百度。

 

主要参考文献:

[1] 国内中文搜索引擎比较研究[J/OL] http://www./eschool/includes/zhuanti/book/200410/sousuo/index.shtml.

[2] 陈晋.国内中文搜索引擎现状及检索技巧[J/OL].福建师范大学图书馆.

[3] 彭敏.互联网文献资源的索取[J].现代情报.2005,(7):178-179.

[4] 搜索革命.[EB].博客科技网.2005.

[5] 刑志宇.重要的网络检索方法[EB].http://www.360doc.com/showWeb/0/3/23451.aspx.

[6] 文献搜索方法概述[EB].http://www.360doc.com/showWeb/0/3/23460.aspx.

[7] 统计、事实和有机的搜索引擎优化[EB].http://www.360doc.com/showWeb/0/0/27122.aspx.

[8] 张帆.朱红涛. 基于关键词的网络信息检索优化探索[J].情报科学.2005,23(6):912-916. 

[9] 井底之蛙的检索经验[EB].http://www.360doc.com/showWeb/0/3/23453.aspx.

[10] 康桂英.张帆等.新一代搜索引擎网典研究[J].情报理论与实践.2000,23(3):218-220.

[11] 张帆.信息存储与检索[M].北京:高等教育出版社,2003:214-271. 

[12] 张朝阳在国内最早推出中文搜索引擎.[EB].http://www.yesky.com/Etimes/74872343805034496/20000730/101134.shtml.

[13] 邓锦月.互联网搜索的发展.[EB] http://cisnet.blogchina.com/576094.html

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多