python爬虫再体验，爬取文章浏览量。俗人必备工具

Polaris058 2020-04-20

展开全文

开门见山，我是个俗人，俗不可耐的那种。

几天前开始日更，至今已有9篇或流水账或菜鸡技术篇问世，论钻石，我仰望大佬，论评论，我仰望大佬，论点赞，我仰望大佬，论浏览量，我依旧仰望大佬。人都说，写文章嘛，记录生活就好了，何必那么在意。我也这么想，但总感觉没人看的时候，自己会好受挫。我承认我俗了。每天打开简书刷新文章页面的时间占我玩手机的百分之80以上。文章少的时候，我还能靠我超（普）强（通）的记忆力，记住每篇文章的阅读数，并与上次记忆时作比较，嘴角露出一丝猥琐的笑。如今不行了，文章越来越多，人也越来越俗。那么，咱就来想办法解决解决。

昨天刚开始学爬虫，爬了最好大学网，实在有趣至极。心里实在痒得不行，我们今天就来爬简书。并且，我们将爬出来的数据进行可视化，输出至图片，曲线总是比图片好看不是嘛。说干就干，它来了。

先来看看我们的主页：

我的主页

接下来查看网站源码：

网站源码

可以十分清晰的看到，我们需要的浏览量，还有标题都被
<a class='title' target='_blank' href='/p/96fc3adaf818'>北方人的面食生活</a> 类似的标签包裹，那就好办多了。

下面直接上代码：

代码部分1：导入需要的库，此处并未使用高级爬虫框架，依然采用的是requests，使用了正则表达式re来匹配我们要查找的字段，使用了time来实现每过20分钟查询一次功能的实现，以及每次查询时间的记录等等，最最生涩的库matplotlib图表库，来实现数据的可视化

代码部分2：此为低级爬虫获取网站源码的框架。

代码部分3：构造正则表达式，查询我们需要的浏览量和标题

代码部分4：输出到文件，为了达到与上次浏览量的对比，我们将每次的记录追加至csv文件中

可以看到csv文件如下图：