搜索

分享

QQ空间 QQ好友新浪微博微信

SEO之robots.txt爬虫协议

五毒缺嫖赌 2019-06-26

展开全文

Robots.txt即爬虫协议，是搜索引擎蜘蛛进入网站第一个寻找的文件，它告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

当我们网站出现错误页面，或者某些页面不想让蜘蛛爬取时，合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站，首先查找网站根目录下是否存在robots.txt文件，若存在，则按照该文件的规范抓取内容；若不存在该文件，则按照默认的规则爬取网站中所有网页。因此，本文介绍一些robots语法和常用实例。

网站设置robots.txt的好处：禁止搜索引擎收录部分页面；引导蜘蛛爬网站地图；能够一定程度上保护网站安全；节省流量等。

Robots基本语法：

1、定义搜索引擎：User-agent。

2、Disallow 禁止爬取。

3、Allow 允许。默认情况下，都是允许的。
例如：禁止admin文件夹下的所有文件，除了.html的网页。如果用Disallow一个一个的禁止，太浪费时间了。
此时用Allow就解决这个问题：

4、$ 结束符。
例：允许所有的以.html结尾的文件。不管前面有多长的URL，只要以.html结尾都允许

5、* 通配符符号0或多个任意字符。
例：屏蔽所有的动态URL

6、Sitemap 声明网站地图。

7、根据UA分组

注：

robots.txt文件存放在网站根目录下。
文件名所有字母都必须小写（robots.txt）。
sitemap声明、通配符(*、$)等为Google专有，非RFC标准，

参考文档

https://www./robotstxt.html
https://developers.google.com/search/reference/robots_txt

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：五毒缺嫖赌 > 《SEO》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

五毒缺嫖赌

关注对话

TA的最新馆藏

[转] 3D跨度与和值的关系!
[转] CP也有规律～3D示范技巧
[转] 万十定位新编章：开奖号码的转换与定位（冰河大师）
[转] 技巧| 不可思议！上期奖号居然能定下期胆码
[转] 福彩3D的中奖方法在这里
[转] 无错226断组方法，100%必中技巧分享

喜欢该文的人也喜欢更多

热门阅读换一换