搜索

分享

QQ空间 QQ好友新浪微博微信

公众号简单爬虫

网海拾贝网络猪 2020-02-05

展开全文

Ps：经历两个多月家里的麻烦事，泛舟终于又有空更新了。

起因是之前帮一个朋友做一个企业网站，没有啥功能，单纯的展示和发布信息。其实是很简单的事情，随便下载个个人博客源码，改一下，以为就可以了，但是。。。。他要把公众号里的历史信息全部搬到网站上，如果手工一篇一篇复制，那也是及其痛苦的事情，于是泛舟只能用爬虫了。

Ps:本文用51cto的公众号做例子.

好消息是，要的是文章内容，不是点赞数和阅读数，可以免去好大的麻烦。

那么这个任务的目的很简单，复制公众号上的文章，然后粘贴到网站里面。具体需要什么内容呢?安装好网站,然后进入后台,添加文章那里看到:

文章标题,文章作者,文章来源,缩略图,文章描述,文章内容,都是我们需要的内容.其实很好找,除了具体文章内容,其他基本在公众号的历史消息页全部都有了.

就是用爬虫把公众号的所有历史文章都爬下来。然后根据连接,再爬具体网页内容.分两步处理,其中关键是如何爬取历史信息.

需要用到抓包工具Fiddler,思路是这样的:

打开Fiddler软件,清除所有Sessions,

微信电脑版打开需要抓取的公众号历史消息页,

向下滚动,大于10条消息,就是等它加载出二页,转到Fiddler查看

这个就是我们需要的地址,直接点开用浏览器查看,红圈就是关键,我们要修改的参数.

得到这个连接以后,就是已经成功一半了,下一篇文章继续具体的代码.

感谢各位的阅读,望勿喷!

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：网海拾贝网络猪 > 《python》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

网海拾贝网络猪

关注对话

TA的最新馆藏

【一中动态】宝坻一中开展校园网络安全周活动
【一中动态】坚持育人文本打造缤纷社团 ----宝坻一中社团工作简介暨2016-2017学年第一次社团工作会议
python3.6 +tkinter GUI编程实现界面化的文本处理工具
Python tkinter和exe打包的方法
8.1 系统化学习 tkinter 之布局篇
8.1 系统化学习 tkinter 之布局篇

喜欢该文的人也喜欢更多

热门阅读换一换