分享

关于noindex、Crawl

 余新pro 2016-12-06

  首先robots.txt中支持Crawl-delay标签,而noindex是在页面的Meta中设置。也就是说robots.txt和noindex是平起平坐的。相信有很多站长朋友也还不晓得noindex、Crawl-delay是怎么回事。一起来拜读下吧!

  robots.txt,nofollow与noindex这三个功能,经常用来阻止搜索引擎,但是对于robots.txt,nofollow与 noindex这三者之间的区别理解的不是很深刻,对于何时使用robots.txt,nofollow与noindex三者中的一个也不是很准确。下面就为大家分析robots.txt,nofollow与noindex的作用:

  1.Robots.txt:Robots.txt禁止搜索引擎访问这个其禁止的URL,但是允许搜索引擎索引它,并可以在搜索结果页面显示;

  大家都知道淘宝在其Robots.txt设置了禁止百度蜘蛛爬行,但在百度中查询“site:www.taobao.com”还是现示一条记录。

  2.NoIndex:在页面的Meta中设置NoIndex,允许搜索引擎访问这个URL,但不允许搜索引擎索引它,且不允许在搜索结果页面显示;

  3.Nofollow:在链接中设置Nofollow属性,允许搜索引擎访问这个URL,允许搜索引擎索引它,在搜索结果页面显示,但不传递PR值;

  对于那些robots.txt中禁止的URL,最好在有链接至这些URL的页面的a属性中添加“rel=”nofollow””,以免禁止PR值传递至这些页面,从而增加其他页面的PR;

  如果你的那些robots.txt中禁止的URL已经获得了PR,可以使用meta:noindex, follow来使其PR传递至你网站上的其他有效页面。

  robots.txt和Crawl-delay

  Robots.txt中如何使用Crawl-delay来限制蜘蛛来抓取网页的频率,使网页在访问的时候不会受到打开速度的影响。

  Crawl-delay: 在robots.txt里,有一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时,即每2次抓取的时间间隔。如果crawler频率对 您的服务器是一个负担,您可以将这个延时设定为任何您认为恰当的数字,例如1或10。

  例如,您想设定一个2秒的延时,语句如下:

  User-agent: *

  Crawl-delay: 2

  搜索引擎对 Crawl-delay 的支持情况yahoo 对 Crawl-delay 的反应:如果你有分析网站日志文件的习惯,你会发现以前的yahoo 每天抓取网页的频率是最高的,其次是谷歌和百度,上面的Crawl-delay也是从yahoo的站长帮助文件中了解到的,所以yahoo对这个参数是支持的。

  百度对 Crawl-delay 的反应:限制百度爬虫抓取时间和频率限制,可以在robots中的crawl-delay 中设置,这个参数是 baidu spider 对网站访问频率的重要参考信息之一,但spider系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力,因此并不保证严格遵守 crawl-delay 中的设置值。

  目前根据谷歌网站管理员工具中的抓取工具测试,谷歌会忽略掉这个参数。网站管理员可以通过将网站添加到谷歌的网站管理员工具中,利用网站配置 – 设置来自定义抓取速度。

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多