开门见山,我是个俗人,俗不可耐的那种。 几天前开始日更,至今已有9篇或流水账或菜鸡技术篇问世,论钻石,我仰望大佬,论评论,我仰望大佬,论点赞,我仰望大佬,论浏览量,我依旧仰望大佬。人都说,写文章嘛,记录生活就好了,何必那么在意。我也这么想,但总感觉没人看的时候,自己会好受挫。我承认我俗了。每天打开简书刷新文章页面的时间占我玩手机的百分之80以上。文章少的时候,我还能靠我超(普)强(通)的记忆力,记住每篇文章的阅读数,并与上次记忆时作比较,嘴角露出一丝猥琐的笑。如今不行了,文章越来越多,人也越来越俗。那么,咱就来想办法解决解决。 昨天刚开始学爬虫,爬了最好大学网,实在有趣至极。心里实在痒得不行,我们今天就来爬简书。并且,我们将爬出来的数据进行可视化,输出至图片,曲线总是比图片好看不是嘛。说干就干,它来了。 先来看看我们的主页: ![]() 我的主页 接下来查看网站源码: ![]() 网站源码 可以十分清晰的看到,我们需要的浏览量,还有标题都被 <a class='title' target='_blank' href='/p/96fc3adaf818'>北方人的面食生活</a> 类似的标签包裹,那就好办多了。 下面直接上代码: 代码部分1:导入需要的库,此处并未使用高级爬虫框架,依然采用的是requests,使用了正则表达式re来匹配我们要查找的字段,使用了time来实现每过20分钟查询一次功能的实现,以及每次查询时间的记录等等,最最生涩的库matplotlib图表库,来实现数据的可视化 代码部分2:此为低级爬虫获取网站源码的框架。 代码部分3: 构造正则表达式,查询我们需要的浏览量和标题 代码部分4: 输出到文件,为了达到与上次浏览量的对比,我们将每次的记录追加至csv文件中 可以看到csv文件如下图: ![]() csv文件 代码部分5: 读取并处理数据,将所有数据从文件中读出,并进行格式处理。 格式如:{“北方人的面食生活”:[[163,164,165],[16:47,16:48,16:48]]}以字典形式进行保存,键为标题,值的第一字段为浏览量列表,第二字段为记录时间列表 代码部分6:数据可视化。 代码部分7:定义主函数,并进行定时处理。 结果令人舒适,轻松加愉快:![]() textdata.png 事后烟: ![]() 命令行生成exe ![]() |
|
来自: Polaris058 > 《默认》