首先根据行业经验,做数据分析一般有这几个阶段: 基本学会Excel(VBA最好学会;会做透视表;熟练用筛选、排序、公式),做好PPT。这样很多传统公司的数据专员已经可以做了 这一阶段要会SQL,懂业务,加上第一阶段的那些东西。大多数传统公司和互联网小运营、产品团队够用了。 统计学熟练(回归、假设检验、时间序列、简单蒙特卡罗),可视化,PPT和Excel一定要溜。这些技术就够了,能应付大多数传统公司业务和互联网业务。
接下去说一说往数据发展的基本学习路径可以概括为以下内容: 数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。 初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。 NoSQL可以在之后和统计学啥的一起学。基本的NoSQL、MongoDB和Redis(缓存,严格意义上不算数据库)。 然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。 如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。
常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。 hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。 基本要知道次感化、分词、情感分析啥的。 语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。
文字不够直观?下面两幅长图保存好: |
|
来自: 新用户81624111 > 《金融》