关于noindex、Crawl

余新pro 2016-12-06

展开全文

　　首先robots.txt中支持Crawl-delay标签，而noindex是在页面的Meta中设置。也就是说robots.txt和noindex是平起平坐的。相信有很多站长朋友也还不晓得noindex、Crawl-delay是怎么回事。一起来拜读下吧!

　　robots.txt，nofollow与noindex这三个功能，经常用来阻止搜索引擎，但是对于robots.txt，nofollow与 noindex这三者之间的区别理解的不是很深刻，对于何时使用robots.txt，nofollow与noindex三者中的一个也不是很准确。下面就为大家分析robots.txt，nofollow与noindex的作用：

　　1.Robots.txt：Robots.txt禁止搜索引擎访问这个其禁止的URL,但是允许搜索引擎索引它，并可以在搜索结果页面显示;

　　大家都知道淘宝在其Robots.txt设置了禁止百度蜘蛛爬行，但在百度中查询“site:www.taobao.com”还是现示一条记录。

　　2.NoIndex：在页面的Meta中设置NoIndex，允许搜索引擎访问这个URL,但不允许搜索引擎索引它，且不允许在搜索结果页面显示;

　　3.Nofollow：在链接中设置Nofollow属性，允许搜索引擎访问这个URL，允许搜索引擎索引它，在搜索结果页面显示，但不传递PR值;

　　对于那些robots.txt中禁止的URL，最好在有链接至这些URL的页面的a属性中添加“rel=”nofollow””,以免禁止PR值传递至这些页面，从而增加其他页面的PR;

　　如果你的那些robots.txt中禁止的URL已经获得了PR,可以使用meta：noindex, follow来使其PR传递至你网站上的其他有效页面。

　　robots.txt和Crawl-delay

　　Robots.txt中如何使用Crawl-delay来限制蜘蛛来抓取网页的频率，使网页在访问的时候不会受到打开速度的影响。

　　Crawl-delay: 在robots.txt里，有一个特定的扩展名，可以通过它对我们的抓取程序设定一个较低的抓取请求频率。您可以加入Crawl-delay:xx指示，其中，“XX”是指在crawler程序两次进入站点时，以秒为单位的最低延时，即每2次抓取的时间间隔。如果crawler频率对您的服务器是一个负担，您可以将这个延时设定为任何您认为恰当的数字，例如1或10。

　　例如，您想设定一个2秒的延时，语句如下：

　　User-agent: *

　　Crawl-delay: 2

　　搜索引擎对 Crawl-delay 的支持情况yahoo 对 Crawl-delay 的反应：如果你有分析网站日志文件的习惯，你会发现以前的yahoo 每天抓取网页的频率是最高的，其次是谷歌和百度，上面的Crawl-delay也是从yahoo的站长帮助文件中了解到的，所以yahoo对这个参数是支持的。

　　百度对 Crawl-delay 的反应：限制百度爬虫抓取时间和频率限制，可以在robots中的crawl-delay 中设置，这个参数是 baidu spider 对网站访问频率的重要参考信息之一，但spider系统会根据网站规模、质量、更新频度等多方面信息综合计算得出最终的执行压力，因此并不保证严格遵守 crawl-delay 中的设置值。

　　目前根据谷歌网站管理员工具中的抓取工具测试，谷歌会忽略掉这个参数。网站管理员可以通过将网站添加到谷歌的网站管理员工具中，利用网站配置 – 设置来自定义抓取速度。