配色: 字号:
搜素引擎是如何抓取网站重要页面的?
2012-11-03 | 阅:  转:  |  分享 
  
搜素引擎是如何抓取网站重要页面的?

搜素引擎面对海量页面是如何抓取的呢?我们知道搜索引擎会优先抓取网站的重要页面,这可不仅可以节省数据库,而且还有利于用户查找。

搜素引擎在海量页面会认为带有如下特征的页面就是重要页面:

页面网址被其他多次链接的页面。

页面的父页面被链接的次数多或被重要的页面链接。

网页内容被转载广播的广。

网页的目录深度小。我们知道深度越大网页的url就会越长,因此,搜素引擎收录时,会首先收录url较短的页面。

以上是搜素引擎判断重要页面的依据,搜素引擎会赋予网站首页最高权重值。以上几种方法虽然好用但也会有失灵的时候,有时候链接的深度并不能代表这个网页的重要程度,这时应该怎么办呢?这时搜素引擎会通过如下方法来解决这个问题:

从url深度来测定,网站首页被赋予最高权重,然后深度是多少权重就会逐层降低,权值最小的可以为0。

将url初始权值为一个固定的数值。URL中出现字符”/”,”?”,或”&”1次,则权值减一个数值,出现”search”,”proxy”,或”gate”1次,则权值减一个数值;最多减到零。(包含”?”,或”&”的URL是带参数的形式,需要经过被请求方程序服务获得网页,不是搜索引擎系统侧重的静态网页,因此权值相应降低。包含”search”,”proxy”,或”gate”,说明该网页极大可能是搜索引擎中检索的结果页面,代理页面,因此要降低权值)。选择未访问URL的策略。因为权值小不一定说明不重要,所以有必要给一定的机会搜集权值小的未访问URL。选择未访问URL的策略可以采用轮流的方法进行,一次按照权值排序取,一次随机取;或者N次随机选取。30建站,转载请注明出处!







献花(0)
+1
(本文系流金的岁月首藏)