搜素引擎是如何抓取网站重要页面的？

帮助|留言交流|

首页

阅览室

馆友

我的图书馆

来自：流金的岁月 > 馆藏分类

配色：

字号：大中小

搜素引擎是如何抓取网站重要页面的？

2012-11-03 | 阅：转： | 分享

搜素引擎是如何抓取网站重要页面的？

搜素引擎面对海量页面是如何抓取的呢？我们知道搜索引擎会优先抓取网站的重要页面，这可不仅可以节省数据库，而且还有利于用户查找。

搜素引擎在海量页面会认为带有如下特征的页面就是重要页面：

页面网址被其他多次链接的页面。

页面的父页面被链接的次数多或被重要的页面链接。

网页内容被转载广播的广。

网页的目录深度小。我们知道深度越大网页的url就会越长，因此，搜素引擎收录时，会首先收录url较短的页面。

以上是搜素引擎判断重要页面的依据，搜素引擎会赋予网站首页最高权重值。以上几种方法虽然好用但也会有失灵的时候，有时候链接的深度并不能代表这个网页的重要程度，这时应该怎么办呢？这时搜素引擎会通过如下方法来解决这个问题：

从url深度来测定，网站首页被赋予最高权重，然后深度是多少权重就会逐层降低，权值最小的可以为0。

将url初始权值为一个固定的数值。URL中出现字符”/”，”?”，或”&”1次,则权值减一个数值，出现”search”，”proxy”，或”gate”1次，则权值减一个数值;最多减到零。(包含”?”，或”&”的URL是带参数的形式，需要经过被请求方程序服务获得网页，不是搜索引擎系统侧重的静态网页，因此权值相应降低。包含”search”，”proxy”，或”gate”，说明该网页极大可能是搜索引擎中检索的结果页面，代理页面，因此要降低权值)。选择未访问URL的策略。因为权值小不一定说明不重要，所以有必要给一定的机会搜集权值小的未访问URL。选择未访问URL的策略可以采用轮流的方法进行，一次按照权值排序取，一次随机取;或者N次随机选取。30建站，转载请注明出处！

献花(0)

+1

(本文系流金的岁月首藏)

类似文章 更多

发表评论：