【数具】利用Python爬取前程无忧上的职位，了解哪些技能“钱”程无忧？

学习雪雪 2018-03-02

展开全文

关于Python的热度大家有目共睹，目前很多地方都能看到很多介绍或评论Python的文章，那么我们的程序员和数据分析师们找工作的时候怎么了解市场上的职位要求呢？下面小凤就告诉你，怎么让大数据说话。

作者 | Phoenix

编辑 | 数小妹

Hello～大家好，我是小凤Phoenix，上次给大家介绍了怎么爬取大众点评的评论并生成十大关键词，今天根据那个框架做一个升级版。也是用到了requests，正则表达式，还有NLP。

首先还是get_source得到网页，这是爬虫的基本。道生一，一生二，二生三，三生万物，requests就是道。

上面的图里，get_info_list是把搜到的每一页的职位，都划分成一个一个小项，每项包括职位的名称和url链接，汇总成一个列表，之后再写一个函数，从这个列表里迭代爬取每个职位的页面里的职位描述。

最后，我们先爬个五页试试～效果如下，铛铛铛铛～成功！

关于入库，上次的文章里我讲过了使用超简单的MongoDB和pymongo。这一次也试用哦～当然，你可以选择自己喜欢的数据保存和提取方式，包括csv，excel，sql，都可以。我自己用的mysql。

爬取完成了数据，只是我们做数据分析工作的刚刚开始，我们爬取完成招聘信息后，对数据进行了一些格式化以及清洗工作后，就开始做如下分析：

有了我们的职位描述，根据里面出现的词频，NLP自然语言分析的算法会给我们提取出词频比较高的关键词，但是并不是所有高频词汇都是我们需要的，比如“熟练”，“掌握”，“学历”，这种词和我们的技能无关。那么我的思路是把这些词从文本中剔除，剩下的文本再做分析。

前5行是mysql的语句，不用mysql的可以跳过，总之就是要把职位描述，也就是爬虫里的description字段，集合成一个text文本。NLP工具使用的是上次介绍过的玻森NLP，传入的文本大小是有上限的，如果返回报错，请看看是不是文本太长了。

基于上表，我们从3个维度看对数据分析人才具体的要求。

第一维度：工具维度

可以看到一个合格数据分析人才是必须要掌握SQL语言（个人觉得每个行业的人都应该掌握），掌握数据库技术（就是怎么连接数据库，利用SQL操纵数据库，做基础的数据统计的工作），需要掌握数据分析软件（spss，sas等），当然基于大数据统计的人才还必须掌握hadoop和spark技术（最起码能够做到操作查询语言，查询统计结果），如果能够掌握python和r那就更加无敌了。有鉴于此，作为出入爬虫江湖的小白我，需要学习的路还是很长的。

第二维度：分析能力

需要掌握统计方法，分析模型，掌握算法，这个比较偏向与专业的统计人才，也是我等技术人员最为头痛的。不过术业有专攻，这块既然掌握不了，也是没啥问题，大家分工合作，加强团队合作，也是能够完成的。

第三维度：角色渗透

数据分析已经不在属于固定的角色的工作了，我们的很多职业都需要学习数据分析，挖掘数据的价值，这也是符合DT 时代的工作的发展。这个时代就是懂得和掌握数据分析，利用数据增长业务。

所以作为一个技术人员，也是要看到趋势，不是我们必须要学习，而是如果不趁早学习数据分析技能，我们未来很可能失业了。

按照权重对关键字进行排序，不难看出在数据时代Python是我们必须要学习和掌握的语言和技能。也是公司招聘中，会Python的人优势会体现的很明显。

谢谢大家的阅读～^ _ ^欢迎大家交流讨论～文末有彩蛋哦！

· end ·