有一年没有更新文章了,最近一年一直在恶补如何做数据分析和数据挖掘知识,现在把这一年的经验成果分享给大家。 最近一段我先教给大家如何数据获取的方法,大家听到数据抓取,可能想这个需要专业编程能力,告诉你们不需要编程也可以自动抓取数据。 今天教大家使用excel就可以抓取网站的数据,而且还可以设置自动更新数据,本次拿一个空气质量数据网站作为数据爬虫源。 第一步:你装上一个office软件 第二步:新建一个excel,并打开 第三步:切换到数据选项卡,点击“自网站” 第四步:输入需要爬取的网页url 第五步:选择需要加载的数据并加载 以上几个步骤就完成了一个网站数据导入 高级技能: 设置数据自动刷新 选择设计选项卡,点击刷新里面的“连接属性” 勾选“刷新频率”并设置刷新时间(默认是60分钟) 有的网站数据被设置反爬机制,数据抓取可能需要复杂的设置,可以在“自网站”中切换到“高级”标签里,里面可以设置一些http请求标头等参数。后面一些文章我会一一交给大家如何使用高级编辑。 今天就先给大家介绍到这里,文章写的太烂请多多包涵,请期待我下一篇吧。 |
|
来自: 新华书店好书榜 > 《「OFFICE」》