分享

数据科学家工作

 汉无为 2018-08-25

数据不是现实,“数据驱动”会导致很多问题,有三种数据处理的方法,能够丰富你的创造力,并且可以让你十分有效的利用所获得的信息。

1、发挥创造力—提问和实验

2、提出问题,能想到的所有问题

3、包容性思考

过快、过量、过度:三类数据驱动型决策中的常见问题

过快:急于求成,还没找到实际问题就提出解决方案

过量:图囵吞——对于重要的和无关紧要的指标不做区分

过度:信息过载,试图发现根本不存在的模式

使用可重用的保留数据法来避免在交互式数据分析中出现过拟合

使用随机搜索进行黑盒参数调优

通过局部近似来解释你的黑盒模型

数据驱动决策的13种思维

第一、信度与效度思维

所谓信度,是指一个数据或指标自身的可靠程度,包括准确性和稳定性

所谓效度,是指一个数据或指标的生成,需贴合它所要衡量的事物,即指标的变化能够代表该事物的变化。”

信度和效度的本质,其实就是**数据质量**的问题,

第二、平衡思维

平衡思维的关键点,在于寻找能展示出平衡状态的指标!

第三、分类思维

关键点在于,分类后的事物,需要在核心指标上能拉开距离!

第四、矩阵化思维

第五、管道/漏斗思维

第六、相关思维

第七、远近度思维

第八、逻辑树思维

第九、时间序列思维

第十、队列分析思维

第十一、循环/闭环思维

第十二、测试/对比思维

第十三、指数化思维

数据科学领域的职位划分以及职责技能

数据科学家、数据分析师、数据架构师、数据工程师、统计学家、数据库管理员、业务数据分析师、数据产品经理。

角色

任务

必备语言

技能和特长

数据科学家

清洗,管理和组织(大)数据

R,SAS,Python,Matlab,SQL,HivePig,Spark

分布式计算、预测模型

故事讲述和可视化

数学\统计,机器学习

数据分析师

收集,处理和执行统计数据分析

R,Python,HTML,Javscript,C/C++,SQL

电子表格工具

数据库系统(SQL和基于NO SQL

通信可视化

数学,统计,机器学习

数据架构师

创建数据管理系统进行整合

集中、保护和维护数据源

SQL,XML,HIVE,PIG,SPARK

数据仓库解决方案

深入了解数据库体系结构

提取thansformation和加载(ETL

电子表格和BI工具

数据建模

系统开发

数据工程师

开发,建设,测试和维护架构(如数据库,以及较大规模的处理系统)

SQL,Hive,Pig,R,Mtlab,SAS,SPSS

Python,Java,Ruby,C++,Perl

数据库系统(SQL和基于NO SQL

数据建模ETL工具

数据API

数据仓库解决方案

统计学家

收集,分析和解释

定性和定量的数据统计理论和方法

R,SAS,SPSS,Mtlab,Stata

Python,Perl,Hive,Pig,Spark,SQL

统计理论方法

数据挖掘机器学习

分布式计算(Hadoop的)

数据库系统(SQL和基于NO SQL

云工具

数据库管理员

确保数据库是提供给所有相关用户,并且安全运行

SQL,Java,Ruby on Rails, XML,C#,Python

备份恢复

数据建模和设计

分布式计算(Hadoop的)

数据库系统(SQL和基于NO SQL

数据安全

ERP业务知识

业务数据分析师

改进业务流程的业务和IT之间的中介

SQL

基本工具(例如微软Office

数据可视化工具(e.g.Tableau

自觉听和讲故事

商业智能的理解

数据建模

数据产品经理

管理团队分析师和数据科学家

SQL,R,SAS,Python,Matlab,Java

数据库系统(SQL和基于NO SQL

领导项目管理

人际沟通

数据挖掘预测建模数据建模


数据科学工作的三种风格

我们决定根据这三个方向来重新定义数据科学职位。 

  • 分析追踪(Analytics track)

这个非常适合那些擅长提出问题的数据科学家,他们能够正确地对数据进行提取、探索,然后用仪表盘和可视化工具进行自动分析,能够通过给出合理建议来推动商业决策。

  • 算法追踪(Algorithms track)

这项能力则是为机器学习专家准备的,他们热衷于在产品设计和运营流程中加入数据思维,然后为商业行为创造价值。

  • 推理追踪(Inference track)

这则是针对统计学家、经济学家和社会学家的,他们能够利用统计学知识来提高决策效率,并正确衡量我们工作造成的影响。

对于技术方面的数据科学家,我们的评价体系包括以下主要方面:

  • 技术层面

  • 分析:定义并监控指标,进行数据的描述性分析,并构建工具来推动决策

  • 算法:为数据产品构建算法,并能够进行解释

  • 推理:采用统计学知识来建立因果关系

  • 基础:每个数据科学家都要为数据质量和代码质量负责任(对于所有方向都适用)

  • 商业层面(对于所有方向都适用)

  • 所有权:能够推动项目取得成功,并为其他人创造影响力

  • 影响力:沟通清晰,有团队精神,能够建立良好关系

  • 丰富性:通过指导、招聘、创建企业文化和其他多样性的行动来为团队建设做出贡献


数据科学的实践需要三个一般领域的技能:商业洞察、计算机技术/编程和统计学/数学

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多