分享

解除限制云推荐爬虫攻略

 看见就非常 2015-03-18
解除限制云推荐爬虫攻略

一、解除robots协议抓取限制

为了让云推荐爬虫能获取到您的网站内容,更好的为您提供推荐服务,请修改一下网站的robots.txt配置。

robots.txt放置在网站的根目录下,例如您的站点是http://www.yoursite.com/,则通过http://www.yoursite.com/robots.txt可以获得。

第一步,如果您没有设置过robots协议,即通过上述网址没有获得内容,则不需要修改,云推荐可以获得您的网站内容。

第二步,如果您设置了robots协议,请检查一下协议里的内容:

查找关键字User-agent,如果找到“:”后面字段含有YisouSpider,请将其全部删掉。

例如:

User-agent: YisouSpider

Disallow: /a/

Disallow: /b/

则请将以上3行都删掉。

第三步,执行完第二步以后,在robots.txt协议中设置以下两行即可

User-agent: YisouSpider

Allow: /

这两行代表允许云推荐爬虫抓取您的网站内容。

二、解除Web Server的屏蔽User-Agent限制

apache为例

第一步,在配置文件(默认httpd.conf)寻找关键字YisouSpider,如果有如下内容:SetEnvIfNoCase User-Agent "YisouSpider" getout,则请删除后重启apache

第二步在网站根目录中检查是否有.htacces文件,若有,在 ./htaccess文件查找关键字Yisou,如果有:

SetEnvIfNoCase User-Agent "^Yisou" bad_bot

Deny from env=bad_bot

则请删除含有Yisou规则的那一行。

三、解除屏蔽IP

云推荐爬虫的IP范围是:

110.75.164.x', '110.75.168.x', '110.75.171.x', '110.75.172.x', '110.75.173.x', '110.75.174.x', '110.75.175.x', '110.75.176.x', '110.75.167.x'

若您是使用iptables屏蔽的,可采用如下步骤解除,以110.75.164.x网段为例:

iptables -L INPUT --line-numbersgrep 110.75.164. |  grep -P "DROP|REJECT"

若返回规则不为空,使用下面方法删除每一条规则。

假设返回的一条规则如下9    DROP       all  --  110.75.164.0/8             anywhere  ”

iptables -D INPUT 9

四、robots.txt指南

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多