分享

爬取上千个网页的数据,我发现,我只是个失败的程序员

 taotao_2016 2018-09-11

失败了

为的是找到更好的


曾经有这么一个悲伤的故事,超模君是一个撸代码的优秀程序猿,后来因为种种原因,转行码字了。


虽说远离代码圈很久,但还是依旧怀念着那段逝去的青(tou)(fa)



作为一名曾经的程序猿,Python软件的崛起应该是比较熟悉的。Python的便捷性和全面开源,让其成为全球最炙手可热的香饽饽。

 

Python的功能强大,相信了解过的人都应该知道。

Python有强大的三方库,功能齐全,且Python入门不难,所以成为目前发展最好的语言之一


零基础初学Python的初学者,一般很快会被网上的免费资料带入Python爬虫的坑里。爬虫技能确实是Python技能中最有趣、最让人有成就感、最能使学习者爱上的一种。


这是他的优点。



但爬多了网页,大家不免迷茫:这么多数据,是否真的有用?

只重视数据爬虫是存在局限性的。具体原因有三:


01

没有进入工作流的数据都是垃圾



初学会爬虫,恨不得把感兴趣的网站都扒个遍,但一到分析,就只能用上简单的描述统计做条形图,并挖不出什么有用结论。


这是很多刚刚入门数据分析的小伙伴的遇到的第一个瓶颈:缺乏数据工作流的概念



看图简单,实践不易,要提升这方面技能,可以先从一些经典的数据集和数据选题进行数据分析、挖掘训练。尝试从构思分析内容开始,一步步完成清洗数据、整理数据、建立模型、得出结论、进行反馈的过程。完成每一步实操,真正理解数据工作流。


一些在线数据集的截图

找数据从来不只有爬虫这条路:

google正致力于做open data相关工作,推出了自己的数据搜索引擎;

kaggle常年出题给热爱数据的极客们;

世界级的学校一般都有自己的公开数据集;

在校的学生不要放过自己老师的科研经费和学校提供的数据库;

已经工作的人们,如需数据研究,所在公司也一般会花钱购买商业数据库。

 

02

互联网公开数据可能失真



有些数据因为多了某几个字段,就变得价值连城。所以数据是有分级的,不同的数据价值不同。数据可以分为基础数据、互联网开源数据和商业数据三种:



爬虫爬取数据属于互联网开源数据的一部分,正因为来自开源,准确性完整性不足,也需要研究者带着怀疑的心态对待。总的来说,爬虫数据用于练手、小研究是没问题的,但在一些商业和学术研究上,精度、准确性还有待商榷。


截至国信房地产信息网


例如链家、安居客这类网站,由于营销原因,会经常性地压低挂出的价格,也会增加虚假房源,这些公开数据会影响研究结果,且很难修正。

 

 

03

数据感知决定数据研究结果 



数据分析的第一件工作是读懂数据,然后才会有研究方向。


如果研究共享单车数据,大部分人都会想到和它和房价、城市相关联,只有少数人会想到共享单车曾经有过学生证的记录,从而可能获知中国大学生的流动情况:





如果研究一个行业是否是大家认为的“好工作”,大部分人只能想到年鉴中对行业收入的统计来描述“是否钱多”,只有少数人会想到可以用建筑用电量数据描述办公楼的的上下班及加班情况,从另一个角度说明“是否事少”:



这就是数据分析师最重要的软实力:数据感知能力,它决定着数据是否可用。相比起爬虫技能,这才是数据技能中的C位。

 

对于数据的感知能力,除了天赋之外,更需要在工作学习中去锻炼加强。

城市数据团联合创始人大鹏老师将带来一场免费直播,教你读懂数据,感知数据,欢迎大家来看:

除此之外,网易云课堂和城市数据团联合推出的Python数据分析微专业还将送出以下免费福利:



免费体验课程

《一周时间体验Python数据分析》


课程大纲

1、会写代码的数据分析师是怎么样的存在?

2、武装你的电脑:Python环境搭建及软件安装

3、手把手教你用数据挖掘“成为领导的秘诀”

4、怎样做出专业且高逼格的数据可视化

5、模拟实验:排队等待时间问题



6G学习资料包



获取方式

扫描二维码即可领取

QQ群号:781336892

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多