分享

如何使用python爬取数据并进行可视化显示?

 昵称11935121 2018-07-03

这里介绍一个简单地例子,如何从一步一步爬取数据到可视化显示,主要用到requests+BeautifulSoup(爬取数据)+pyecharts(可视化)这3个包,实验环境win10+python3.6+pycharm5.0,主要步骤如下:

1.为了方便演示,我们这里以人人贷上面的债权数据为例,如下,主要爬取借款标题和金额这2个字段,后面也是以这2个字段数据作为统计和可视化的基础:

2.分析这个页面可知,数据是异步加载的,在一个json文件中,如下,对应到json中,也就是title和amount这2个字段的内容:

3.针对这个json文件,主要解析代码如下,主要用到json这个包,代码很简单,也就十几行而已,主要基于dict字典按借款类型统计数据:

运行代码,程序截图如下,已经成功爬取到了我们要打印的内容:

4.可视化显示,这里主要用到pyecharts这个包,使用起来很简单,主要基于web浏览器进行显示,图片很美观,我这里可视化显示,主要用到柱状图、饼状图和漏斗图3种类型的图,如下:

  • 柱状图,这里主要统计了每种借款类型的最大金额和最小金额,代码量很少,如下,爬取了前10页数据做统计:

程序运行截图如下,已经成功显示出每种借款类型最大值和最小值:

  • 饼状图,这里主要统计了每种借款类型金额的综合,代码如下,也是前10页数据:

程序运行截图如下,每种借款类型所占比例都已显示出来:

  • 漏斗图,这里主要按每种借款类型的总额做了一个排序,主要代码如下:

程序运行截图如下,已经成功画出了漏斗图,可以清晰地看出每种借款类型对应的位置:

至此,我们就完成了数据的爬取和可视化显示。基本流程都是3步,爬取数据->统计数据->可视化显示,我这里以这3个包为例,你也可以使用其他的包,像爬虫scrapy,可视化matplotlib,seaborn等,数据统计处理numpy,pandas等,这里就不详细介绍了,只要你有一定的python基础,多加练习一下,很快就能掌握的,网上也有相关教程,希望以上分享的内容能对你有所帮助吧。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多