表白:黑白圣堂血天使,天剑鬼刀阿修罗。 讲解对象:/robots.txt文件写法 作者:融水公子 rsgz 搜索引擎教程搜索引擎教程 http://www./post/391.html robot协议 全称:Robots Exclusion Protocol 中文名:爬虫协议/机器人协议/网络爬虫排除标准 作用:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取
robots.txt 中文名:robots协议文件 作用: 1 搜索蜘蛛根据robots.txt确定访问的范围 2 robots.txt文件不存在,搜索蜘蛛能访问没有加密的全站文件 文件位置:通常在站点根目录下有存在robots.txt 编辑:使用任何一个常见的文本编辑器都能编辑它 特点:robots.txt是搜索引擎中访问网站的时候要查看的第一个文件 缺点:这个只是扣头上的协议,如果爬虫真的要抓取你的所有未加密的文件,你也没办法,但是声明一下对网站的SEO有好处
一个网站有没有使用robots文件,对于搜索引擎的影响会是这样的 robot语法
添加注释
# -----------------------------------------------------------------------------
# author wenjun.zhouwj
# 修改 shipeng.gsp
# fileEncoding = UTF-8
#
# 禁止爬虫爬取无效URL,提升网站核心静态资源抓取及索引效率。
# 无效URL包含:已下线产品线的URL,全动态URL,需权限验证的URL,存在问题的旧静态URL
# 等各种无需被SE收录的URL。
# -----------------------------------------------------------------------------
# 对哪些爬虫生效
User-agent: *
# 要屏蔽的路径
Disallow: /static/
Disallow: /media/
# 允许抓取的路径
Allow: /author/
Allow: /category/
Allow: /tag/
Allow: /post/
Allow: /links/ 注意:Disallow: /*#* (表示所有带有#号的链接都不收录) robots文件在线生成器 推荐大家使用这个小工具--robots文件在线生成器
http://tool.chinaz.com/robots/ 生成结果
=== 公众号:小雪妃 谢谢大家的支持!可以点击我的头像,进入我的空间浏览更多文章呢。建议大家360doc[www.360doc.com]注册一个账号登录,里面真的有很多优秀的文章,欢迎大家的到来。 ---
|