分享

爬虫被封ip的处理方法

 BIGDATA云 2018-07-13
1:第一种:给爬虫设置爬取间隔
保险的时间间隔是10s-20s
公式:10*t(t表示抓取一个页面的时间秒数,测试值大概是100ms,)

2:第二种使用代理ip,这个时候就需要有一个代理ip库
代理IP库可以使用redis中的set来做,代理IP的格式是这样的:112.2.3.0:8080
代理ip从哪来?
1:到一些免费代理ip网站上抓取(缺点:不稳定)
2:买(缺点:花钱)
如何使用:
在httpclient中设置
String ip = "119.135.185.98";
int port = 9999;
HttpHost proxy = new HttpHost(ip, port);
CloseableHttpClient client = builder.setProxy(proxy)/*设置代理*/.build();

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多