3分钟让你了解全新的大数据岗位，让你找到适合自己工作，太神了

京城客家人老黄 2017-09-30

展开全文

大数据行业包含的岗位有哪些？

3分钟让你了解全新的大数据岗位，让你找到适合自己工作，太神了

数据分析师：

工作内容：运用工具，提取、分析、呈现数据，实现数据的商业意义，需要业务理解和工具应用能力

数据挖掘师/算法工程师：

工作内容：数据建模、机器学习和算法实现，需要业务理解、熟悉算法和精通计算机编程

大数据工程师：

工作内容：运用编程语言实现数据平台和数据管道开发，需要计算机编程能力

数据架构师：

工作内容：高级算法设计与优化;数据相关系统设计与优化，有垂直行业经验最佳，需要平台级开发和架构设计能力

在工资待遇上，在国内还是国外都是：

数据科学家->数据架构师==算法工程师>大数据工程师>数据分析师。

有关于大数据的相关问题？请加群640193172提及他们，我们共同讨论。

1.3大数据的价值体现在以下几个方面：

（1）-用户行为数据（精准广告投放、内容推荐、行为习惯和喜好分析、产品优化等）

（2）-用户消费数据（精准营销、信用记录分析、活动促销、理财等）

（3）-用户地理位置数据（O2O推广，商家推荐，交友推荐等）

（4）-互联网金融数据（P2P，小额贷款，支付，信用，供应链金融等）

-用户社交等UGC数据（趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等）

3分钟让你了解全新的大数据岗位，让你找到适合自己工作，太神了

对于企业而言大数据的影响和帮助哪些？

1）及时解析故障、问题和缺陷的根源，每年可能为企业节省数十亿美元。

2）为成千上万的快递车辆规划实时交通路线，躲避拥堵。

3）分析所有SKU，以利润最大化为目标来定价和清理库存。

4）根据客户的购买习惯，为其推送他可能感兴趣的优惠信息。

5）从大量客户中快速识别出金牌客户。

6）使用点击流分析和数据挖掘来规避欺诈行为。

1.4大数据工程师周边相关知识？

很多公司会针对自己的业务类型和团队分工，给这群与大数据打交道的人一些新的头衔和定义：数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title，我们将其统称为“大数据工程师”

于是每家公司对大数据工作的要求不尽相同：有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此，数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title，我们将其统称为“大数据工程师”。

“大数据工程师”往往是一个团队，它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等角色，共同完成从原始数据到商业价值的转换—概括来讲，这是一个支持企业做出商业决策、发掘商业模式的重要群体。

由于国内的大数据工作还处在一个有待开发的阶段，因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架，包括要有计算机编码能力、数学及统计学相关背景，当然如果能对一些特定领域或行业有比较深入的了解，对于其快速判断并抓准关键因素则更有帮助。

拥有硕博学历的公司人是比较好的选择，不过阿里巴巴集团研究员薛贵荣强调，学历并不是最主要的因素，能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。

一个优秀的大数据工程师要具备一定的逻辑分析能力，并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的，哪个是重要的，使用什么样的数据是最有价值的，如何快速找到每个业务最核心的需求。”

大数据工程师的工作主要分为两种方式：由市场部驱动和由数据分析部门驱动

前者需要常常向产品经理了解开发需求，后者则需要找运营部了解数据模型实际转化的情况。

（1）.大数据工程师做什么？

大数据工程师就是一群“玩数据”的人，玩出数据的商业价值，让数据变成生产力。大数据和传统数据的最大区别在于，它是在线的、实时的，规模海量且形式不规整，无章法可循，因此“会玩”这些数据的人就很重要。

把大数据想象成一座不停累积的矿山，那么大数据工程师的工作就是，“第一步，定位并抽取信息所在的数据集，相当于探矿和采矿。第二步，把它变成直接可以做判断的信息，相当于冶炼。最后是应用，把数据可视化等。”

因此分析历史、预测未来、优化选择，这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向，他们帮助企业做出更好的商业决策。

（2）.分析历史找出过去事件的特征

大数据工程师一个很重要的工作，就是通过分析数据来找出过去事件的特征。比如，腾讯的数据团队正在搭建一个数据仓库，把公司所有网络平台上数量庞大、不规整的数据信息进行梳理，总结出可供查询的特征，来支持公司各类业务对数据的需求，包括广告投放、游戏开发、社交网络等。

找出过去事件的特征，最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹，就能够了解这个人，并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好，是不是互联网付费用户、喜欢玩什么类型的游戏，平常喜欢在网上做什么事情。”腾讯云计算有限公司下一步到了业务层面，就可以针对各类人群推荐相关服务，比如手游，或是基于不同特征和需求衍生出新的业务模式，比如微信的电影票业务。

（3）.预测未来可能发生的事情

通过引入关键因素，大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上，工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热，很可能某些产品就没有去年畅销，除了空调、电扇，背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系，找到与之相关的品类，提前警示卖家周转库存。

在百度“百度预测”部分产品的模型研发，试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以百度景点预测为例，大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测，并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里，它究竟是畅通、拥挤，还是一般拥挤？

（4）找出最优化的结果

根据不同企业的业务性质，大数据工程师可以通过数据分析来达到不同的目的。

以腾讯来说能反映大数据工程师工作的最简单直接的例子就是选项测试（AB Test），即帮助产品经理在A、B两个备选方案中做出选择。在过去，决策者只能依据经验进行判断，但如今大数据工程师可以通过大范围地实时测试—比如，在社交网络产品的例子中，让一半用户看到A界面，另一半使用B界面，观察统计一段时间内的点击率和转化率，以此帮助市场部做出最终选择。

作为电商的阿里巴巴，则希望通过大数据锁定精准的人群，帮助卖家做更好的营销。“我们更期待的是你能找到这样一批人，比起现有的用户，这些人对产品更感兴趣。”一个淘宝的实例是，某人参卖家原来推广的目标人群是产妇，但工程师通过挖掘数据之间的关联性后发现，针对孕妇群体投放的营销转化率更高。

1.5大数据行业薪酬待遇以及职业发展

作为IT类职业中的“大熊猫”，大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察，国内IT、通讯、行业招聘中，有10％都是和大数据相关的，且比例还在上升。颜莉萍表示，“大数据时代的到来很突然，在国内发展势头激进，而人才却非常有限，现在完全是供不应求的状况。”在美国，大数据工程师平均每年薪酬高达17.5万美元，而据了解，在国内顶尖互联网类公司，同一个级别大数据工程师的薪酬可能要比其他职位高20％至30％，且颇受企业重视。

3分钟让你了解全新的大数据岗位，让你找到适合自己工作，太神了

毕业后的薪酬如何：

目前，云计算还处于发展阶段。国内对云计算和大数据做的特别好的厂家还不多，大家对云计算的研究还处于起步阶段，我们正好赶在这种技术发展的成长期，机会还是很多的，相应的薪酬起点比较高。我不能鲁莽的下一个最低薪酬底线，告诉大家“这是hadoop起薪啊，你们都比这个高”。这不是我的风格。但是，我可以说肯定如果大家有两三年工作经验，起薪拿到10k左右还是很正常的。当然，这个要跟个人能力、面试技巧、入职的公司等都有关系。我说的可不是最低薪酬，再次声明。

建议去看拉勾网智联招聘猎聘 58同城

工作五年左右工资面议

职业发展路径

由于大数据人才数量较少，因此大多数公司的数据部门一般都是扁平化的层级模式，大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队，而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展，成为重要数据战略人才。”颜莉萍说。另一方面，大数据工程师对商业和产品的理解，并不亚于业务部门员工，因此也可转向产品部或市场部，乃至上升为公司的高级管理层。

关于就业前景的问题：

hadoop是云计算的基础。绝大部分的云计算中的分布式存储和计算都是使用hadoop的。简单的理解的话，云计算是系统工程的蓝图，hadoop是基础层面的重要的必不可少的工具。并且，云计算在国家十二五规划中也有重要章节讨论，全国各省市都有自己的云计算发展规划。云计算已经被提高到国家中长期发展战略规划中，大家可以想象以后hadoop和云计算的岗位有多少。正是因为云计算发展如此如火如荼，我们赶紧推出与此相关的课程，目的就是“造富”一方学子。越早学习，越早受益。

大数据基础知识：分布式计算、服务器集群

大数据，官方定义是指那些数据量特别大、数据类别特别复杂的数据集，这种数据集无法用传统的数据库进行存储，管理和处理。

大数据中的数据量非常巨大，达到了PB级别。而且这庞大的数据之中，不仅仅包括结构化数据（如数字、符号等数据），还包括非结构化数据（如文本、图像、声音、视频等数据）。在大数据的大量复杂的数据之中，通常不仅仅包含真实的数据，一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数据剔除，利用真实的数据来分析得出真实的结果。

大数据分析（Big Data Analysis）

大数据，表面上看就是大量复杂的数据，这些数据本身的价值并不高，但是对这些大量复杂的数据进行分析处理后，却能从中提炼出很有价值的信息。对大数据的分析，主要分为五个方面：可视化分析（Analytic Visualization）、数据挖掘算法（Date Mining Algorithms）、预测性分析能力（Predictive Analytic Capabilities）、语义引擎（Semantic Engines）和数据质量管理（Data Quality Management）。

比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表，使其能够更加容易的被普通消费者所接受和理解。

数据挖掘算法是大数据分析的理论核心，其本质是一组根据算法事先定义好的数学公式，将收集到的数据作为参数变量带入其中，从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析，挖掘出以前未知的两者间的联系，并利用这种联系，提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。

预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律，建立起科学的事件模型，通过将新的数据带入模型，就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域，用于股票预测或气象预测等。

语义引擎是机器学习的成果之一。过去，计算机对用户输入内容的理解仅仅停留在字符阶段，不能很好的理解输入内容的意思，因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析，让计算机从中自我学习，可以使计算机能够尽量精确的了解用户输入内容的意思，从而把握住用户的需求，提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。

数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性，需要将大数据中不真实的数据剔除掉，保留最准确的数据。这就需要建立有效的数据质量管理系统，分析收集到的大量复杂的数据，挑选出真实有效的数据。

分布式计算（Distributed Computing）

对于如何处理大数据，计算机科学界有两大方向：第一个方向是集中式计算，就是通过不断增加处理器的数量来增强单个计算机的计算能力，从而提高处理数据的速度。第二个方向是分布式计算，就是把一组计算机通过网络相互连接组成分散系统，然后将需要处理的大量数据分散成多个部分，交由分散系统内的计算机组同时计算，最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强，但是由于每个计算机只计算一部分数据，而且是多台计算机同时计算，所以就分散系统而言，处理数据的速度会远高于单个计算机。

过去，分布式计算理论比较复杂，技术实现比较困难，因此在处理大数据方面，集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件，很多银行和政府机构都用它处理大数据。不过，对于当时的互联网公司来说，IBM的大型机的价格过于昂贵。因此，互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。

服务器集群（Server Cluster）

服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此，从外部看，这群服务器表现为一台虚拟的服务器，对外提供统一的服务。

尽管单台服务器的运算能力有限，但是将成百上千的服务器组成服务器集群后，整个系统就具备了强大的运算能力，可以支持大数据分析的运算负荷。Google，Amazon，阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。

大数据的技术基础：MapReduce、Google File System和BigTable

MapReduce是分布式计算框架，GFS（Google File System）是分布式文件系统，BigTable是基于Google File System的数据存储系统，这三大组件组成了Google的分布式计算模型。

Google的分布式计算模型相比于传统的分布式计算模型有三大优势：

（1）.它简化了传统的分布式计算理论，降低了技术实现的难度，可以进行实际的应用。

（2）.它可以应用在廉价的计算设备上，只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分低廉。

（3）3.它被Google应用在Google的计算中心，取得了很好的效果，有了实际应用的证明。

Google的这三篇论文也就成为了大数据时代的技术核心。

主流的三大分布式计算系统：Hadoop，Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。

后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席，主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。

不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。

Spark与Hadoop的区别在什么地方？

Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，各自的优点如下：

Hadoop常用于离线的复杂的大数据处理，

Spark常用于离线的快速的大数据处理，

Storm常用于在线的实时的大数据处理。