这里介绍一个简单地例子,如何从一步一步爬取数据到可视化显示,主要用到requests+BeautifulSoup(爬取数据)+pyecharts(可视化)这3个包,实验环境win10+python3.6+pycharm5.0,主要步骤如下: 1.为了方便演示,我们这里以人人贷上面的债权数据为例,如下,主要爬取借款标题和金额这2个字段,后面也是以这2个字段数据作为统计和可视化的基础: 2.分析这个页面可知,数据是异步加载的,在一个json文件中,如下,对应到json中,也就是title和amount这2个字段的内容: 3.针对这个json文件,主要解析代码如下,主要用到json这个包,代码很简单,也就十几行而已,主要基于dict字典按借款类型统计数据: 运行代码,程序截图如下,已经成功爬取到了我们要打印的内容: 4.可视化显示,这里主要用到pyecharts这个包,使用起来很简单,主要基于web浏览器进行显示,图片很美观,我这里可视化显示,主要用到柱状图、饼状图和漏斗图3种类型的图,如下:
程序运行截图如下,已经成功显示出每种借款类型最大值和最小值:
程序运行截图如下,每种借款类型所占比例都已显示出来:
程序运行截图如下,已经成功画出了漏斗图,可以清晰地看出每种借款类型对应的位置: 至此,我们就完成了数据的爬取和可视化显示。基本流程都是3步,爬取数据->统计数据->可视化显示,我这里以这3个包为例,你也可以使用其他的包,像爬虫scrapy,可视化matplotlib,seaborn等,数据统计处理numpy,pandas等,这里就不详细介绍了,只要你有一定的python基础,多加练习一下,很快就能掌握的,网上也有相关教程,希望以上分享的内容能对你有所帮助吧。 |
|
来自: 昵称11935121 > 《未命名》