1:第一种:给爬虫设置爬取间隔 保险的时间间隔是10s-20s 公式:10*t(t表示抓取一个页面的时间秒数,测试值大概是100ms,) 2:第二种使用代理ip,这个时候就需要有一个代理ip库 代理IP库可以使用redis中的set来做,代理IP的格式是这样的:112.2.3.0:8080 代理ip从哪来? 1:到一些免费代理ip网站上抓取(缺点:不稳定) 2:买(缺点:花钱) 如何使用: 在httpclient中设置 String ip = "119.135.185.98"; int port = 9999; HttpHost proxy = new HttpHost(ip, port); CloseableHttpClient client = builder.setProxy(proxy)/*设置代理*/.build();
|
|