分享

计算机世界网

 铃儿响叮当 2006-04-11
■ 陈沛


搜索引擎进入了一个新的时代,新一代个人门户的竞争已经拉开了序幕!

美国军方用于协作的内部系统APARnet可以看成是现在互联网的起源。在APARnet向科研机构开放以来,在各种技术、需求和资本的推动下自发成长,成为今天连接全球的互联网络,它正在深刻地改变着人类的生活。

互联网作为跨时空、跨地域的超级传媒,正在用近乎无限的超大容量和7×24小时全天候的服务尽情展示人类的知识文明成果和新型的网络服务。从电子邮件到网络新闻、从即时通信到网络游戏、从无线增值到电子商务、从网络电话到IPTV、从博客交友到互动社区,互联网包罗万象、无所不有,已真正成为知识的海洋,是人类最大的知识库。

雅虎诞生,第一代搜索引擎横空出世

互联网的第一个高峰应该是从1998~2000年4月,作为衡量互联网热度的纳斯达克大盘指数高达5132点。随后由于年轻的互联网还不能承载成熟赢利的商务模式,大部分互联网公司由于巨额亏损或赢利无望而纷纷倒闭,互联网迅速进入严冬。到2001年9月,纳斯达克指数已降到1300点,下降了3832点。“.com”也成了泡沫的代名词。许多人、许多公司离开了互联网。也就是这个时候,许多公司却全力地进入了互联网搜索引擎的研发。

互联网复苏始于2003年,至今依然在持续增长。互联网迎来了第二个春天。到2006年3月17日为止,纳斯达克指数已达2299.56点。Google从上市到现在,已成为新一代互联网公司的领袖,市值超过1000亿美元,比老牌汽车公司通用汽车和福特汽车公司的总和还多3倍,由此昭示出一个新的时代的来临。虽然作为一个商业平台,只有十多年历史的互联网还不太稳定和成熟,应该说还只是相对幼稚的成长期,但它作为一个全新的高科技产业正蓬勃向上、日渐成熟。

随着互联网内容的快速增长,人们面对着前所未有的信息,如何从浩瀚的知识海洋中找到自己需要的知识成为现代人面临的重要挑战。于是基于互联网的搜索工具——搜索引擎便应运而生了。

第一代搜索引擎是目录分类式的。人们用人工的方法将互联网上各式各样的网站根据它的主要属性,比如新闻、电子商务、游戏、财经、体育等分门别类地罗列出来,供人们查找使用。虽然有一些公司如GoTo.com、Lycos、Excite等都在从事类似的搜索服务,但第一代搜索引擎的代表是1996年的雅虎,后来它成为了一个综合性的门户网站,成为互联网的一座丰碑。

中国的搜狐在1998年左右也提供类似的网站导航服务,后来也变成了通用门户。

搜索引擎的诞生使人们有可能用一个非常简单的方式,找到自己需要的互联网内容。人们通过分类的方式为网站建立索引,也在为人类最大的知识库建立索引。

Google崛起,第二代搜索引擎再铸辉煌

2004年8月,一个新的搜索引擎公司在纳斯达克上市,一年后它的市值超过了IT巨头IBM,是雅虎市值的两倍多,它就是Google。Google采用了与雅虎完全不同的方法为互联网建立新的索引。用户只要输入相应的关键词就可以得到与关键词相关的任何一个网页,这就是第二代搜索引擎。它用技术而非人工的方法以关键词为中心建立了新的索引体系,有效快捷地帮助人们直达所需内容本身。

Google并不是第一个尝试用关键词搜索的公司,之前已有AltaVista、Infoseek、Inktomi等搜索引擎公司。而关键词搜索的方式在企业用搜索中已被广泛采用,此类公司有Verity、中国的TRS等,这类企业级的搜索系统被称为全文检索系统(Full text search)。而在互联网进行全文搜索时,搜索技术遇到了强大的挑战,因为在数以亿计的网页中进行搜索,常常会出现上万甚至上千万的搜索结果,它们杂乱无章地出现在用户面前,而用户几乎没有能力从中挑选出自己真正需要的内容。在企业里成功应用的全文检索技术在互联网上变得没有价值。有人说搜索引擎会死去,但Google改变了一切。1998年Google发明了著名的PageRank技术,这是一种根据网页的链接关系决定网页重要程度的算法,这种算法能够帮助Google从成千上万的结果中找到更接近用户的结果,于是人们能够从搜索结果的前几页中找到需要的内容。类似PageRank的超链分析技术成了第二代搜索引擎的关键技术之一。

Google成功了,它也成了第二代搜索引擎的王者,成为了一个新的神话!

在中国,与Google相似的公司是百度和中搜,它们几乎提供和Google完全一样的关键词搜索服务,不同的是百度和中搜都主要专注于中文的搜索。

厚积薄发,第三代搜索呼之欲出

现在全球每天有近5亿次的搜索请求是由第二代搜索引擎完成的,每天几亿用户都在用这种方式进行搜索。也许人们会认为这也许就是最好的搜索了,其实不然。原因很简单,如果我们相信互联网会有百年,相信互联网会长存,那么只有十年历史的搜索引擎就像一个幼稚的孩子,它注定要发生巨大和令人震惊的演变。事实上搜索引擎正在发生改变。

早在2003年,笔者就正式提出了第三代搜索引擎的概念。2004年8月搜狐提出了第三代互动搜索;2004年12月,中搜推出网络猪3.0,称其为第三代搜索引擎、个性化信息门户,网络猪也因Personal Information Gateway(个人信息门户)缩写后变为PIG而得名;2005年9月,美国政府提出研制第三代搜索引擎;2005年10月,微软也提出了第三代搜索引擎的构想。虽然第三代搜索还在探索之中,但雅虎的人工目录分类和Google的关键词搜索作为前两代搜索的代表和特征已成广泛共识。中搜是最早提出第三代搜索概念的公司,也是新一代搜索的坚定实践者。

新一代搜索应该包含以下特征:

1. 目录分类与关键词搜索的完整结合

本质上人类获取信息只有两种方式:一种是通过不断地细分目录直到找到需要的内容;一种是提供最相关的关键词,直接找到与之相关的内容。但这两种方式都有欠缺,并且互相不可替代。分类方式在内容比较多的情况下,就会出现分类级数过多,搜索变得烦琐;有些内容隶属哪个分类并不明确,有时会有歧义,造成对用户的误导。用关键词方式只能搜索目标明确的内容,有些事情尚未发生的情况是不可能通过关键词的方法搜索的。所以一般新闻类的内容多半通过门户或新闻网站获取,而新闻的频道和栏目就是一个目录分类体系,它们是由编辑完成的;有时在信息模糊的时候,提取关键词并不容易,这时我们也要借助目录搜索的方式。

最早做目录搜索的雅虎现在把搜索霸主的位子让给了Google,就是因为它们忽略了另一种搜索方式,给了Google崛起的空间。同样,只提供关键词搜索的商家也将面临极大的挑战。

2002年6月中搜(原慧聪搜索)率先推出了新闻搜索功能,使搜索引擎能够查找互联网上最近发生的事情(一般可以搜索到1到5分钟之内的新闻),搜索引擎公司进入其最不擅长的新闻领域。2002年9月,Google推出新闻搜索,2003年中搜、Google相继推出新闻中心。

这些产品是用搜索技术提供频道与栏目的搜索,开始弥补第二代搜索引擎在目录导航方式上的欠缺。之后中搜开始全面完善其内容整合技术,用搜索直接提供财经、体育、娱乐等各种频道服务。

2.搜索将无处不在

随着互联网内容的不断增多,搜索的价值日益体现。现在搜索引擎已成为仅次于电子邮件的第二大应用,是人们最经常使用的互联网工具。但人们在使用中文搜索引擎的时候依然是十分烦琐的,人们必须通过互联网上的一个特定入口才能开始检索,如下图所示。


搜索的过程

搜索应该是一个极其便捷的工具,它应该无处不在。每一个普通用户在任何地方都可以简单地开始一次搜索。用户在Word、电子邮件或他看到的任何一个网页中,用鼠标选中需要的关键词,点击搜索按钮就可以完成一次搜索,这毫无疑问是现阶段最便捷的搜索方式。当然搜索还会出现在手机、PDA、MP3播放器等所有数字终端上,搜索终将无处不在,而只在一个输入框中键入关键词进行搜索会变得十分可笑。

3.搜索范围将更加广泛

第二代搜索引擎的搜索范围主要是对互联网内容的搜索,但随着电子信息的不断增加,人们开始希望对自己PC中的内容进行搜索,有时企业用户希望能同时检索企业内部的信息,当然与我们共享的另一台PC的内容也是可以被检索的。2004年7月,中搜在其桌面搜索产品网络猪2.0中增加硬盘搜索功能;2004年Google推出桌面搜索(Desktop Search Beta)产品提供对硬盘的搜索;2004年12月微软推出桌面搜索;2005年1月雅虎推出桌面搜索,2005年3月,百度推出相似功能的硬盘搜索。至此,主要搜索引擎公司全部进入桌面,开始进一步扩大搜索的范围。2005年2月,中搜发布了其网络猪企业版,开始了对企业内部搜索的整合,相信更多的搜索厂商也会开始对企业搜索进行整合。

如果说第二代搜索引擎搜索的主要对象是内容本身,那么新一代搜索引擎甚至要搜索关注同样内容的人,就是说,特定的人群也会成为搜索的对象,这是一种以内容为中心的全新的搜索能力。

4.搜索更加智能化和个性化

几年来各大搜索引擎收录的网页越来越多,相关性排序技术也变得越来越重要。但随着超链分析技术的大众化,大部分搜索引擎公司都拥有类似的技术,我们能看到的就是不同搜索引擎的结果越来越像。第二代搜索引擎技术似乎正在走向尽头。在超链分析基础上的技术改进已不能实质性地改善搜索的质量。所以只有将人的知识融入到搜索引擎结果中,才能实质性地改善搜索的质量,搜索将更加智能化和个性化。

现在的搜索引擎虽然能够提供很多的结果,但显然还有很多不足。比如,一个北京的用户查找“餐馆”,他当然希望先看到的是北京的餐馆,最好还在他的附近,如果把全世界的餐馆给他其实并无意义,有时候过多的搜索结果其实是信息垃圾。

事实上即便是同一个关键词,人们的搜索目标可能有着显著的差别,比如查找“猎豹”,有人查的是动物“猎豹”,有人需要的是“猎豹”汽车。所以无论怎样排序,把同样的结果给所有的人显然不是一个好的搜索。

中搜2003年8月推出的智能导航功能就用中文的自动分类和自动聚类技术为不同的用户提供不同的结果,是最早进行智能化尝试的中文搜索引擎。2004年8月,搜狗第一次推出时也尝试了类似的技术,欧洲的Vivísimo等搜索公司也在进行智能化的尝试。2005年6月,新浪发布“新浪爱问”知识问答系统,开始了对智能化搜索新的尝试。爱问是一种通过人与人互动问答来获取知识的新型搜索方式,是将人的知识融入搜索结果的探索性尝试,也是传统搜索的有益补充。

2005年7月,百度推出了与爱问同类的知识问答系统“百度知道”,雅虎推出了“知识堂”。韩国搜索引擎公司Naver也在提供类似的搜索服务。

实际上,Google较早就提供类似的问答系统“Google Answer”,与国内搜索引擎不同的是Google的答案是由专业人员提供的,而“新浪爱问”、“百度知道”都是由网民自发回答的。另一个不同的是,Google的回答是收费的,而其他系统的回答都是免费的。互动知识回答系统在中国刚刚开始,虽然它现在还不能取代传统的搜索方式,但确是传统搜索的补充,它体现了Web 2.0的互动特征。

还有一批更新的搜索公司试图用智能化的武器打败现在的领导者。新一轮的搜索技术竞争将在智能化和个性化领域展开。

5.更及时的互动搜索将成为搜索的主流。

现在人们广泛使用的搜索实际上是一个静态的、被动的服务系统。搜索引擎公司每天使用网络蜘蛛(spider)不停地从互联网上搜索新增的网页,为它们建立快速搜索的索引,然后静静地等待用户的访问。而用户只在需要的时候或想起来的时候输入关键词进行搜索。如果是经常关心的内容,人们还必须每天输入同样关键词进行搜索。第二代搜索引擎只把用户的搜索结果当做搜索服务的全部,而这只是搜索服务的开始。一个用户如果持续关注相同的内容,比如股民关注其购买的股票,则应该允许人们定制经常关注的内容,中搜IG的定制、RSS阅读器的特定内容定制都是新的搜索方式。如果互联网上出现了新的用户关心的内容,搜索引擎应该能够主动提醒用户。中搜IG的即时滚动与弹出服务就体现了互动搜索的特征。

很显然,第三代搜索引擎采用了自动获取、主动呈现的服务方式,当然这种主动服务是以用户的个性化需求为基础的。

总之,第三代搜索引擎正在全面颠覆已有的搜索概念,在桌面为人们展示前所未有的服务。

门户与搜索相生相长日渐融合


门户与搜索走向融合

1. 从搜索到门户到回归搜索

Yahoo诞生的时候就是一个搜索引擎,它用目录分类的方式为用户导航。随着它提供的内容服务越来越多,它变成了一个门户。拥有同样经历的是中国的搜狐,它也是最早做搜索而后来变成了门户。而所有的门户网站都提供搜索引擎服务,无论新浪,还是MSN都是如此。搜索引擎应该说是门户网站的标志性服务,而人们也是最先在门户中使用搜索的。2003年,雅虎收购了AltaVista、Inktomi和Fast几家搜索引擎,宣布回归搜索。中国的门户网站搜狐和新浪分别在2004年和2005年推出自主研发的搜索引擎,门户重新进入了搜索。

2. 传统门户向超级媒体演变

5年前,很多人都是通过传统的门户网站进入互联网的,但今天越来越多的人不再通过传统的门户网站就可使用互联网的多种应用,比如人们聊天的时候,可直接启动QQ或MSN; 玩游戏时直接启动《传奇》或《魔兽》;发表自己的文章,直接登录博客或社区就可以了;传统门户已越来越不能涵盖互联网的新应用。另一方面,门户不但提供新闻和信息,也在提供游戏、即时通信、短信等互联网其他服务,它的互联网导航功能正在弱化,但却在提供越来越强大的内容服务,传统门户正在向超级媒体演变,成为互联网最大的内容提供商。

3. 搜索引擎向门户演变

与门户网站回归搜索相反,搜索引擎正在向门户演变。作为独立的搜索入口,www.google.com的流量已接近雅虎,www.baidu.com的流量超过最大的门户网站新浪www.sina.com。搜索入口已具有显著的门户特征,也是用户进入互联网的大门。而news.google.com和news.zhongsou.com更是用搜索技术提供互联网新闻服务。news.google访问量已进入全球独立新闻网站的前十名。用搜索技术提供的新闻服务正在向传统人工编辑的新闻服务挑战,而新闻服务恰恰是门户网站的另一个标志性服务。此外,中搜和百度借助MP3搜索技术提供的音乐服务俨然已成为音乐门户,中搜的论坛搜索演变为论坛中心,其视频搜索也演变为视频中心。搜索开始变得不那么像搜索了,关键词和目录导航正在融合。

4. 新门户的诞生

在向门户演变的进程中,中搜IG(Internet Gateway)作为新一代的门户,完成了互联网从搜索到门户的又一次回归。当然这不是一次简单的重回原点,互联网需要门户,但不是所有人去挤一个大门,每一个人都有了一个属于自己的通向互联网的大门——个人门户。以网站为中心的互联网服务必将向以用户为中心的服务转移,一个新的时代来临了!

另一个将成为新门户的搜索引擎无疑是Google,2005年Google令人眼花缭乱地推出了一系列基于桌面的产品,它们有些看起来与搜索无关。2004年4月推出Gmail;2004年10月推出桌面搜索产品(Desktop Search Beta);2005年3月推出桌面搜索1.0产品(Desktop Search 1.0);2005年5月Google推出个性化首页;2005年8月Google Talk发布;2005年8月推出桌面搜索2.0产品(Desktop Search 2.0);2006年2月推出Google Pack。

Google Pack不仅包括Google的几乎所有的基于桌面的产品,也包括了其他公司提供的互联网应用软件。Google几乎走了中搜走过的全部过程——一个搜索公司向门户演变的过程。

很显然,搜索引擎的竞争已演变为个人门户的竞争。

链接

Google转向企业应用和数据

Google已经把眼光放在了企业数据应用上。假如Google将其在Web搜索的技术全部投入到消费服务这一庞大的帝国上,那么我们很快就可以搜索企业应用与数据了。

最近几年,Google把前进的轮子放到了一系列企业应用方面,但是其搜索引擎的天然Web标准特性限制了它的搜索。但是这一障碍可能将在今后迅速消除。Bearing Point—— 一家服务资讯公司宣布将与Google合作在贯穿整个企业的领域,包括服务、支持、客户化定制和安全集成等,延伸GSA(Google搜索应用)。

这些还不是Google进入企业领域的惟一行动。公司已经在测试一个程序,允许基于Web的Mail产品Gmail担当公司后台服务的角色,作为公司e-Mail的域。另外,一个企业版本的Google桌面搜索工作将支持安全,允许IT管理人员控制它。

显然,对Google在高端企业领域的作为大家还是有疑虑,Google的品牌影响深远,但是在企业技术提供方面,它还缺乏足够的可信性。(刘学习编译)

(计算机世界报 2006年04月10日 第13期 C4、C5、C9

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多