分享

数据分析能力养成记:从小白到骨灰级玩家仅需七周!

 爱幻想的笨熊 2017-07-23

文章来源:公众号“秦路”

数据分析养成记

说到数据分析,大家会想到什么呢?BAT?大数据?还是各种各样的图表?在我看来,数据分析就是把数字密码转换成易于普通人接受的信息。换句话说,数据分析是一个decode的过程。所以,数据分析并不仅仅是分析,还要让数据可视化,这背后更不可缺系统的分析思维。那么,如何才能成为一名骨灰级数据玩家呢?我们特意为大家准备了一个七周训练计划,不妨一试~

第一周:

Excel学习掌握

学习excel的重点是了解各种函数,包括但不限于sum,count,sumif,countif,find,if,left/right,时间转换等。函数不需要学全,重要的是学会搜索。即如何将遇到的问题在搜索引擎上描述清楚。其中,vlookup和数据透视表是最具性价比的两个技巧。


学会vlookup,SQL中的join,Python中的merge很容易理解;学会数据透视表,SQL中的group,Python中的pivot_table也是同理。


Excel是熟能生巧,多找练习题。同时,还需要养成好习惯,不要合并单元格,不要过于花哨。表格按照原始数据(sheet1)、加工数据(sheet2),图表(sheet3)的类型管理。使用excel还需要注意以下细节:

了解单元格格式,后期的数据类型包括各类timestamp,date,string,int,bigint,char,factor,float等。

了解数组及使用方法,Python和R也会涉及到 list。

了解函数和参数,当进阶为编程型的数据分析师时,会让你更快的掌握。

了解中文编码,UTF8和ASCII,包括CSV的delimiter等。


第二周:

数据可视化

数据分析界有一句经典名言,字不如表,表不如图。数据可视化是数据分析的主要方向之一。除掉数据挖掘这类高级分析,不少数据分析就是监控数据观察数据。数据分析的最终目的是兜售自己的观点和结论。兜售的最好方式就是做出观点清晰数据详实的PPT进行展示。如果没人认同分析结果,那么分析也不会被改进和优化,不落地的数据分析价值又在哪里?

数据可视化的学习就是三个过程,了解数据(图表),整合数据(BI),展示数据(信息化)
首先,我们要了解常用的图表:


Excel的图表可以100%完成上面的图形要求,但这只是基础。后续的进阶可视化,势必要用到编程绘制。常见的多元分析,Excel无法轻松完成,但在IPython只需要一行代码。


其次掌握BI,下图是微软的BI。


BI(商业智能)和图表的区别在于BI擅长交互和报表,更擅长解释已经发生和正在发生的数据,将要发生的数据是数据挖掘的方向。


BI的好处在于很大程度解放数据分析师的工作,推动全部门的数据意识,另外降低其他部门的数据需求。BI市面上的产品很多,基本都是建立仪表盘Dashboard,通过维度的联动和钻取,获得可视化的分析。


最后需要学习可视化和信息图的制作。


这是安(装)身(逼)立(加)命(薪)之本。这和数据本事没有多大关系,更看重审美、解读、PPT、信息化的能力。但值得花一点时间去学习。


第三周:

分析思维的训练

好的数据分析首先要有结构化的思维,也就是我们俗称的金字塔思维。思维导图是必备的工具。之后再了解SMART、5W2H、SWOT、4P理论、六顶思考帽等框架。

 

分析也是有框架和方法论的,主要围绕三个要点展开:
一个业务没有指标,则不能增长和分析;
好的指标应该是比率或比例;
好的分析应该对比或关联。

举一个例子:我告诉你一家超市今天有1000人的客流量,你会怎么分析?
这1000人的数量,和附近其他超市比是多是少?(对比)
这1000人的数量比昨天多还是少?(对比)
1000人有多少产生了实际购买?(转化比例)
路过超市,超市外的人流是多少?(转化比例)

这是一个快速搭建分析框架的方法。如果只看到1000人的客流量,是看不出分析不出任何结果的。

 

优秀的数据分析师会拷问别人的数据,而他本身的分析也是经得起拷问,这就是分析思维能力。需要确切明白的是,一周时间锻炼不出数据思维,只能做到了解。数据思维是不断练习的结果。


第四周:

数据库学习

Excel对十万条以内的数据处理起来没有问题,但是互联网行业就是不缺数据。但凡产品有一点规模,数据都是百万起。这时候就需要学习数据库。越来越多的产品和运营岗位,会在招聘条件中,将会SQL作为优先的加分项。


SQL是数据分析的核心技能之一,从Excel到SQL绝对是数据处理效率的一大进步。

学习围绕Select展开。增删改、约束、索引、数据库范式均可以跳过。
主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等。
如果想要跟进一步,可以学习row_number,substr,convert,contact等。另外不同数据平台的函数会有差异,例如Presto和phpMyAdmin。
再有点追求,就去了解Explain优化,了解SQL的工作原理,了解数据类型,了解IO

SQL的学习主要是多练,网上寻找相关的练习题,刷一遍就差不多了。


第五周:

统计知识学习

统计知识是数据分析的基础。

统计知识会教我们以另一个角度看待数据。我们需要花一周的时间掌握描述性统计,包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。

 

以Excel的分析工具库举例(图片来自网络)。在初级的统计学习中,需要了解列1的各名词含义,而不是停留在平均数这个基础上。


第六周:

业务知识学习

对于数据分析师来说,业务的了解比数据方法论更重要。
举一个数据沙龙上的例子,一家O2O配送公司发现在重庆地区,外卖员的送货效率低于其他城市,导致用户的好评率降低。总部的数据分析师建立了各个指标去分析原因,都没有找出来问题。后来在访谈中发觉,因为重庆是山城,路面高低落差比较夸张,很多外卖人员的小电瓶上不了坡…所以导致送货效率慢。
这个案例中,我们只知道送货员的送货水平距离,即POI数据,根本不可能知道垂直距离的数据。这就是数据的局限,也是只会看数据的分析师和接地气分析师的最大差异。

对业务市场的了解是数据分析在工作经验上最大的优势之一。在互联网行业,有几个宽泛的业务数据需要了解。

产品数据分析,以经典的AAARR框架学习,了解活跃留存的指标和概念。

并且需要知道如何用SQL计算。因为在实际的分析过程中,留存只是一个指标,通过userId 关联和拆分才是常见的分析策略。

网站数据分析,可以抽象吃一个哲学问题:
用户从哪里来(SEO/SEM),用户到哪里去(访问路径),用户是谁(用户画像/用户行为路径)。

虽然网站已经不是互联网的主流,但现在有很多APP Web的复合框架,朋友圈的传播活动肯定需要用到网页的指标去分析。


用户数据分析,这是数据化运营的一种应用。

在产品早期,可以通过埋点计算转化率,利用AB测试达到快速迭代的目的,在积累到用户量的后期,利用埋点去分析用户行为,并且以此建立用户分层用户画像等。

例如用贝叶斯算法计算用户的性别概率,用K聚类算法划分用户的群体,用行为数据作为特征建立响应模型等。不过快速入门不需要掌握这些,只需要有一个大概的框架概念。


除了业务知识,业务层面的沟通也很重要。在业务线足够长的时候,良好的业务沟通能力是数据分析的基础能力。


第七周:

Python/R学习

是否具备编程能力,是初级数据分析和高级数据分析的风水岭。虽然SQL+Excel足够应付入门级数据分析,但是涉及到循环迭代、多元图表的分析部分,复杂度就呈几何上升,更遑论数据挖掘这种高阶玩法。数据挖掘,爬虫,可视化报表都需要用到编程能力。

 

以时下最热门的R语言和Python为学习支线(只需掌握一门即可):
R的优点是统计学家编写的,缺点也是统计学家编写。如果是各类统计函数的调用,绘图,分析的前验性论证,R无疑有优势。但是大数据量的处理力有不逮,学习曲线比较陡峭。

 

Python则是万能的胶水语言,适用性强,可以将各类分析的过程脚本化。Pandas,SKLearn等各包也已经追平R。


学习R,需要了解数据结构(matrix,array,data.frame,list等)、数据读取,图形绘制( ggplot2)、数据操作、统计函数(mean,median,sd,var,scale等)。高阶的统计暂时不用去涉及,这是后续的学习任务。R语言的开发环境建议用RStudio。


学习Python需要了解调用包、函数、数据类型(list,tuple,dict),条件判断,迭代等。高阶的Numpy和Pandas在有精力的情况下涉及。
Python的开发环境建议Anaconda,可以规避掉环境变量、包安装等大部分新手问题。Mac自带Python2.7,但现在Python 3已经比几年前成熟,没有编码问题,就不要抱成守旧了。

 

到这里,刚刚好是七周。实际上,业务知识、统计知识仅靠两周是非常不牢固的。如果希望数据分析能力更近一步,或者成为优秀的数据分析师,每一周的内容都需要继续学习至精通。这篇文章只是目的性极强的速成,是开始,而不是数据分析的毕业典礼。


读完这篇进阶攻略后,屏幕前的你是否已经跃跃欲试,盘算着如何把攻略进行到底呢?

中国公益基金会数据骇客松

公益数据骇客松

由中国公益基金会中心网、IBM企业公民与企业事务部、DAL数据应用学院发起的中国公益基金会数据骇客松,已经正式接受报名。


这个暑假,iJoin 社会创新咨询x粟米科技 邀请你参与“中国公益基金会数据骇客松”


给自己七周的时间,从小白进阶数据分析师,一起用大数据做公益

 

由中国公益基金会中心网、IBM企业公民与企业事务部、DAL数据应用学院发起的中国公益基金会数据骇客松,已经正式接受报名!!!

 

【iJoin 和iJoin 校友创办的粟米科技联手成为中国首次大型公益hackathon 的华东华南区负责机构,也就是华东华南区报名团队有大腿啦!】


大赛由中美多家机构共同合作,宣传范围将覆盖北大、清华、人大、复旦等70余所中国高校,以及包括斯坦福、UCLA、USC等在内的美国顶尖名校,获得超过50万人关注。Boss直聘,UpHonest Capital,清华-青岛数据科学研究院,USC 南加州大学等企业、高校、NGO共同进行战略合作,汇聚中美资源,享受多方支持。

 

担心不具备业务背景?

没关系。主办方将联合基金会中心网与中国著名基金会,发放资料、举办竞赛业务背景内部培训,让大家迅速熟悉中国公益基金会的发展历史、运行模式、社会问题需求与社会影响力,并对中美进行对比。

 

担心不具备计算机与数据科学背景?

主办方将邀请IBM与DAL数据应用学院的志愿者,在竞赛期间,为参赛选手提供数据科学技能培训,教你如何进行舆情分析,如何利用网络爬虫抓取数据,清理数据;如何建立简单数据模型,进行机器学习;如何分析数据,并进行可视化操作。

 

本次数据竞赛共三个题目(三选一),可选择个人参赛与团体参赛,团体参赛每支参赛队伍人数不超过三人,且要求至少有一人为在校学生。每题的前6支获奖队伍将有机会获得由Boss直聘与VC基金UpHonest Capital等提供的实习与正式工作机会!Boss直聘将为中国赛区的优胜选手提供总裁面试,UpHonestCapital 将为美国赛区优胜选手提供实习岗位。


从小白入门到数据分析师的升级之门已经打开

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多