解除限制云推荐爬虫攻略一、解除robots协议抓取限制 为了让云推荐爬虫能获取到您的网站内容,更好的为您提供推荐服务,请修改一下网站的robots.txt配置。 robots.txt放置在网站的根目录下,例如您的站点是http://www.yoursite.com/,则通过http://www.yoursite.com/robots.txt可以获得。 第一步,如果您没有设置过robots协议,即通过上述网址没有获得内容,则不需要修改,云推荐可以获得您的网站内容。 第二步,如果您设置了robots协议,请检查一下协议里的内容: 查找关键字User-agent,如果找到“:”后面字段含有YisouSpider,请将其全部删掉。 例如: User-agent: YisouSpider Disallow: /a/ Disallow: /b/ 则请将以上3行都删掉。 第三步,执行完第二步以后,在robots.txt协议中设置以下两行即可: User-agent: YisouSpider Allow: / 这两行代表允许云推荐爬虫抓取您的网站内容。 二、解除Web Server的屏蔽User-Agent限制 以apache为例 第一步,在配置文件(默认httpd.conf)寻找关键字YisouSpider,如果有如下内容:SetEnvIfNoCase User-Agent "YisouSpider" getout,则请删除后重启apache。 第二步,在网站根目录中检查是否有.htacces文件,若有,在 ./htaccess文件查找关键字Yisou,如果有: SetEnvIfNoCase User-Agent "^Yisou" bad_bot Deny from env=bad_bot 则请删除含有Yisou规则的那一行。 三、解除屏蔽IP 云推荐爬虫的IP范围是: ’110.75.164.x', '110.75.168.x', '110.75.171.x', '110.75.172.x', '110.75.173.x', '110.75.174.x', '110.75.175.x', '110.75.176.x', '110.75.167.x' 若您是使用iptables屏蔽的,可采用如下步骤解除,以110.75.164.x网段为例: iptables -L INPUT --line-numbers | grep 110.75.164. | grep -P "DROP|REJECT" 若返回规则不为空,使用下面方法删除每一条规则。 假设返回的一条规则如下“9 DROP all -- 110.75.164.0/8 anywhere ” iptables -D INPUT 9 |
|