当我们网站出现错误页面,或者某些页面不想让蜘蛛爬取时,合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站,首先查找网站根目录下是否存在robots.txt文件,若存在,则按照该文件的规范抓取内容;若不存在该文件,则按照默认的规则爬取网站中所有网页。因此,本文介绍一些robots语法和常用实例。 网站设置robots.txt的好处:禁止搜索引擎收录部分页面;引导蜘蛛爬网站地图;能够一定程度上保护网站安全;节省流量等。 Robots基本语法:1、定义搜索引擎:User-agent。 2、Disallow 禁止爬取。 3、Allow 允许。默认情况下,都是允许的。 4、$ 结束符。 5、* 通配符符号0或多个任意字符。 6、Sitemap 声明网站地图。 7、根据UA分组 注:
参考文档
|
|