哎哟卧槽,静觅博客博主崔庆才朋友。 崔庆才,Python技术控,爬虫博文访问量已过百万。喜欢钻研,热爱生活,乐于分享。个人博客:静觅 | http:/// 注意:今天的文字格式可能显示有点问题,相信你可以脑补~ 各位小伙儿伴儿,一定深受过采集微信公众号之苦吧!特别是!!!!!!公共号历史信息!!!这丫除了通过中间代理采集APP、还真没什么招数能拿到数据啊! 直到············ 前天晚上微信官方发布了一个文章:https://mp.weixin.qq.com/s/67sk-uKz9Ct4niT-f4u1KA 大致意思是说以后发布文章的时候可以直接插入其它公众号的文章了。 诶妈呀!这不是一直需要的采集接口嘛!啧啧 天助我也啊!来来·········下面大致的说一下方法。 1、首先你需要一个订阅号! 公众号、和企业号是否可行我不清楚。因为我木有·····2、其次你需要登录!微信公众号登录我没仔细看。 这个暂且不说了,我使用的是selenium 驱动浏览器获取Cookie的方法、来达到登录的效果。 3、使用requests携带Cookie、登录获取URL的token(这玩意儿很重要每一次请求都需要带上它)像下面这样:4、使用获取到的token、和公众号的微信号(就是数字+字符那种)、获取到公众号的fakeid(你可以理解公众号的标识)我们在搜索公众号的时候浏览器带着参数以GET方法想红框中的URL发起了请求。请求参数如下:请求相应如下:代码如下:好了 我们再继续:5、点击我们搜索到的公众号之后、又发现一个请求:请求参数如下:返回如下:代码如下:好了···最后一步、获取所有文章需要处理一下翻页、翻页请求如下:我大概看了一下、极客学院每一页大概至少有5条信息、也就是总文章数/5 就是有多少页。但是有小数、我们取整,然后加1就是总页数了。代码如下: |
|