分享

爬虫小偏方:绕开登陆和访问频率控制

 鹰兔牛熊眼 2019-01-22

- 该APP必须登陆才能访问所有页面。

- 你的账号如果没有关注对方,对方的详细介绍页面的很多信息就被隐藏了。

- APP的用户详细页面一个账号大概只能访问100次/天(有点记不清具体数字了)就不能访问了。


俺注册了10个该APP账号,模拟登录后一天只能抓1000千多个,还有好些数据不全(因为没有关注对方), 实在离俺想要的数据量相差较远。

总结上面的问题就是没有足够多的账号,就算账号足够多,每个账号和每个ip也有抓取限制。


于是就把该产品的APP,微信,网页里里外外都翻了一遍,能点的地方都去点一下看看。


有了新的发现:


- 该APP的用户详细页分享到微信后,通过微信打开可以直接访问,不需要登录,也不需要微信授权,用户详细页信息都是全的(解决了需要关注才能查看全面信息问题)。

- 通过APP获取分享到微信的url的接口访问频率控制放得很宽松。

- 虽然在微信上不用登录访问,没有账号限制了,但是还是有单个IP的访问频率控制。


分析完后,我就舒缓了很多,得出新的抓取思路,就是:


使用10个账号按一定频次通过APP不停的获取每个用户详细页分享到微信的URL,让另外一个程序模仿微信的user-agent不停的访问这些分享到微信的URL(要使用adsl拨号来解决单个IP访问频率控制问题)。

这样通过app加微信的方式解决了对账号的限制问题,实现了曲线救国。


后来我就发现好些抓取问题都有这种解决思路,跟我们在网络爬虫小偏方之一里讲的,有的网站为了SEO流量,而把referer来自百度的访问控制放宽了一样。

有的产品为了微信的流量(分享到微信里的页面可以直接打开,点击其他页面时再提示要注册登录),而对来自微信点击访问控制放宽了。


友情提示:抓取这些社交信息,对关键信息最好脱敏,不要买卖这类数据。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多