分享

关于数据分析问题的汇总

 吾道有涯 2017-09-25


文 | 去哪儿

源 | 简书

很多读者给我后台留言数据分析应该怎么入门,怎么提升,怎么找工作?那我想说数据分析你可以看做一个职业也可以看做一项技能,薪资水平决定你需要的能力是多少?

以下我就整理了一些关于数据分析的问题,统一回复。

问题一:无任何分析经验和基础想要入门数据分析,如何入门?

我先用一个比较接地气的例子介绍一下数据分析。在企业中,数据分析就像做一道菜,菜是你最终需求的成品,数据分析师就是厨师,设计方案就是下单,数据采集就是备料,数据处理就是切配,数据分析就是烹饪,数据呈现就是菜品最后的呈现装饰。

再举个简单的例子,假设你需要用数据分析去选择A,B,C三种护肤品中的一个,这是你的目的,这时你的选择困难症来了,你现在知道的信息如下:A,B,C的价格,A,B,C的功效各自不一样,价格和功效都是你关心的(你想要价格适中,具有保湿程度相对好一点的,但在这两种里,你更看重功效),但是功效比重各不一致,这时候就可以用到数据分析了,三个样本的价格和功效的数据表示,就是分析所需要的最基础的原料,而有些时候这些数据不是我们要分析的数据形式,比如说功效这个产品说明里面是用程度去表示的,比如说保湿极好,防晒一般,那这些是定性数据,我们没办法对定性数据进行分析,所以要将这些数据进行一些加工和转换,比如说将极好,一般这些程度词用数字(1-5中的某个值表示),值越大,表示极好,越小表示几乎无效。当用数字可以表示,可以应用在我们之后的分析模型的时候,这就是一个数据准备的过程了;这部分时间要花去数据分析时间的70%,因为数据准备的质量决定着之后的分析质量。数据准备中主要两大知识块:缺失值的处理和异常值的处理。

之后就是模型的建立,像以上的例子中,我们假定已经够造了一个模型(层次分析法)解决这个问题,那这里问题来了,我们怎么知道用哪些方法和哪些模型呢,这就需要知识储备了(一些分析方法和算法的掌握,比如说预测:AR模型,MA模型,分类:决策树,不要被这些算法吓到了哈,我只是举个例子)。那这个模型构造出来了,每个模型并不是完美的,怎么去评价你的模型呢,即怎么评价你的结果如何呢?

那后面就是模型评价了,在上述的例子中就是看你分析出的结果,即你根据模型分析选择的B符不符合你当初的期望值,是不是吻合(当然,在正规的数据分析中有对应的评价指标,比如说分类的混淆矩阵,预测的梯度提升等)。在我的工作经验中,这部分应用一般,主要是实用为主,但是如果是做研究,写论文等,这部分很重要,就是对你模型优劣的论证。

数据分析大致流程就是四个方面:数据准备,模型设计,模型评价,分析报告展示(如果应对的是需求客户的话这一步骤也不可少),步骤虽然少,但是每个方面涉及的内容多到崩溃,所以结合您的实际情况我的建议是先找一个有关您课题的分析目标,然后从这个目标出发,结合我上面所说的那四个流程,每个流程下选择您需要解决的这个问题的解决方案(比如你的目的是评分),然后针对这个问题去了解这个模型所需要的解决方法(比如说层次分析法,主成分分析法之类),这样由问题展开去学习,比刚开始做足准备再去开始有效的多。

那上面是数据分析的学习方式,再梳理一下学习工具。个人学习的话强烈建议用R语言去做统计分析,现在利用R语言尤其是在科研研究中是主流趋势。R语言不需要很厉害的编程逻辑或思维,入门比较容易(最慢三个月也入门了),它里面都有现成的函数工具包,而且模型应用面很广,几乎现在涉及的统计分析和大多数算法都能找到现成的函数包。

工作场景的话,建议把Excel用熟练,因为最常见的就是做报表,制作数据决策报告了。Excel可以灵活地应用各种本地数据的处理,如果要涉及到和数据库的交互的话,公司可能会有报表系统,或者OA、ERP自带的报表功能。那像我的话,公司有数据中心项目,用finereport搭建了一套数据决策报表平台,用设计器开发报表,类似excel。

关于数据分析问题的汇总,给出了以下答案!

关于数据分析问题的汇总,给出了以下答案!

关于数据分析问题的汇总,给出了以下答案!

推荐基本我看过并且很受益的入门书籍

从易到难,按安排时间阅读为好:

1 数据分析:企业的贤内助(入门级)

有kindle mobi版,如果入门级书优先推荐,那我首推这一本

特点:重点讲述了数据分析的应用场景和一些简单的统计分析方法。也比较有趣

阅读难度:1颗星

有趣程度:3颗星

受益程度:4颗星

2 谁说菜鸟不会数据分析(入门篇和工具篇2本,有电子书)

阅读难度:1颗星

有趣程度:2颗星

受益程度:2颗星

特点:以生动有趣的方式讲述数据分析是“神马”,数据分析的几个步骤。以及以EXCEL为分析工具进行的分析操作和方法。

3 赤果果的统计学(有电子版)

阅读难度:2颗星

有趣程度:4颗星

受益程度:5颗星

这本书主要是结合现实中有趣的现象去阐述统计学,是我阅读过的通俗易懂而且内容对于知识的理解很是有深度启发性的统计学书籍,没有之一。

4 深入浅出数据分析

阅读难度:2颗星

有趣程度:3颗星

受益程度:4颗星

以下内容是粘贴百度百科的,因为比较全面

以类似"章回小说"的活泼形式,生动地向读者展现优秀的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文之后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。

工具篇:

R语言实战(有电子版)

阅读难度:2颗星

有趣程度:1颗星

受益程度:5颗星

这本书利用R语言对于统计方法的应用很全面,特别全面,是我入门R语言的最好的启蒙书。刚开始学可以先将这本书上的示例和程序都手动模仿学习一遍,这本书是值得阅读两遍的书。

问题二:sas,r,python在金融行业数据分析,数据挖掘方面的优劣比较,及未来发展趋势

解答:先说一下sas与其他两个工具的区别

1 sas是付费分析工具,主要是大型咨询公司或者外企会用这个工具比较多,原因:因为付费,有保障,通俗的来讲,出了错会有赔付会有责任,对于公司来说,更有保障,风险很低,所以如果以后面试大型咨询公司,金融行业公司或者外企学会这个工具还是很有必要的,sas以前在本科的时候用过一点点,语法相对r和python比较简单。因为本人是在主要是在做电商里面的物流这一块,所以对sas实际操作了解不多,所以这个不能给予更全面的解答。

2 R和python是开源软件,即免费的,是现在国内大多数IT行业做数据分析与挖掘的首选,R语言在做学校研究和公司轻量级的研究和分析(即数据量在T级别以下)比较好用,因为其语法简洁,有很多可以直接应用的工具包(目前主流的一些算法比如说决策树,神经网络,kmeans聚类算法等都能找到工具包和相应的函数,编写简单的程序调用即可,以及还有关于金融相关的风险预测等都可以找到相应的一些函数包),所以编写算法不是R语言主要花时间的地方,主要耗时间的地方在数据处理这一部分,往往数据分析中数据处理和最后做分析花的时间比例大概是7:3,也就是70%的时间会花在数据处理,使得最后调用函数的时候数据格式符合函数要求格式(比如说一些缺失值的处理等),话说回来,R语言主要的优势就是入门快,没有很高的编程要求,数据可视化比python要强。

那我再说一下python,它跟R语言分析功能以及工具的使用方式都差不多是一样的,但是为什么python会用的更广一些呢,主要原因:其一是因为它稳定,它是一门工程类语言,类似于java,稳定性比较强,应用在开发环境中,有一定的规则范式,可以说是介于R语言和java这类语言特性之间,而且在网上的资料会更全面更权威一点,之前说了R语言还有一个弱势就是处理的数据量的大小,我现在工作中用R语言比较多一点,我主要用它做仿真建模,数据量不要求很大,但是如果某天要将代码应用在工程里并且分析的数据量大于T级的时候,R语言的稳定性和效率就很差了,可以想象,当一个APP上某个输出如果很慢的话,会造成怎样的影响,所以如果python在做分析,并且这个代码要嵌套在开发环境中,那python相比于R语言是一个更好的选择。

我现在工作在用R,主要因为R用的比较熟练比较难换过去(因为学习新的语言需要成本),另外分析的数据量不是很大,之前有过经验,当excel里的数据超过100万条的时候,R语言运行速度已经成吃力了,python也自学过一部分,但是也是在循序渐进的学习python,因为这是一种趋势,虽然R语言现在也有Rspark之类的解决运行速度这一类问题,但是发展还是比较缓慢的,而且网上可以搜集的资料也是很有限的,现在的数据都是按指数级增长的,如果你想让自己的职业技能更深入,想在数据分析和挖掘这条路上越走越远的话,建议提早学python。

这是工具方面的一个建议,但是工具只是工具,以我现在的工作经验来看,分析工具层出不穷,更新迭代的速度真的很快,现在又有tensorflow这种工具出来了(专注于机器学习和深度学习),所以我建议不要把大量精力放在很多工具的学习上,工具就像我们从起始点到目的地的一个交通工具一样,你用汽车,公交车都能到达目的地,最主要的是培养一种思维方式,就是解决需求任务的思路和能力,比如你拿到一个问题,怎么利用已知条件,或者在问题里找出这个条件(即提取特征),应用这些条件,构造出一个解决方案(即模型),并且能够严谨准确的去评价你的方案或者模型。这是需要花时间和花精力去学习的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多