分享

robots.txt文件写法

 融水公子 2021-03-26
表白:黑白圣堂血天使,天剑鬼刀阿修罗。 
讲解对象:
/robots.txt文件写法
作者:融水公子 rsgz
搜索引擎教程
搜索引擎教程 http://www./post/391.html
  
robot协议
全称:Robots Exclusion Protocol  
中文名:爬虫协议/机器人协议/网络爬虫排除标准
作用:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取  

robots.txt
中文名:robots协议文件
作用:
1 搜索蜘蛛根据robots.txt确定访问的范围
2 robots.txt文件不存在,搜索蜘蛛能访问没有加密的全站文件
文件位置:通常在站点根目录下有存在robots.txt
编辑:使用任何一个常见的文本编辑器都能编辑它 
特点:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件
缺点:这个只是扣头上的协议,如果爬虫真的要抓取你的所有未加密的文件,你也没办法,但是声明一下对网站的SEO有好处    

一个网站有没有使用robots文件,对于搜索引擎的影响会是这样的

  
robot语法
添加注释
# -----------------------------------------------------------------------------
# author wenjun.zhouwj
# 修改 shipeng.gsp
# fileEncoding = UTF-8
#
# 禁止爬虫爬取无效URL,提升网站核心静态资源抓取及索引效率。
# 无效URL包含:已下线产品线的URL,全动态URL,需权限验证的URL,存在问题的旧静态URL
# 等各种无需被SE收录的URL。
# -----------------------------------------------------------------------------

# 对哪些爬虫生效 
User-agent: *

# 要屏蔽的路径
Disallow: /static/
Disallow: /media/

# 允许抓取的路径
Allow: /author/
Allow: /category/
Allow: /tag/
Allow: /post/
Allow: /links/
注意:Disallow: /*#* (表示所有带有#号的链接都不收录)
    
robots文件在线生成器  
推荐大家使用这个小工具--robots文件在线生成器
http://tool.chinaz.com/robots/

生成结果 

  
===
 
公众号:小雪妃
谢谢大家的支持!可以点击我的头像,进入我的空间浏览更多文章呢。建议大家360doc[www.360doc.com]注册一个账号登录,里面真的有很多优秀的文章,欢迎大家的到来。
---

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多