对于刚刚接触大数据的人大数据工程师怎样养成让我来详细告诉你

2017helloworld 2018-01-26

展开全文

大数据初学者怎样学习

大数据现在很火很热，但是怎么学习呢？下面我就给大家介绍一下：

大数据的方向有大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。

大数据的4大特征：

1.数据在体量方面很大，比如说文字，有各种各样的来源，有电子书|实体书|杂志|报刊等，它们的数据大吧。

2.数据的类型多种多样，有些是结构化的数据，像存在Oracle,MySQL这些传统的数据库里的数据，一般都是结构化，可以是还有非结构化，比如HTML,WORD，execl等格式。

3.它们的价值密度低，这样说吧，你比如说观看一条数据好像价值也不大，但是分析所有的数据之后呢？总会挖掘出一些重要的东西。

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架，相比传统的数据库处理速度要快，它的吞吐量特别的大，再比如Spark，Spark在内存方面计算比Hadoop快100倍，在磁盘方面计算快10倍。

大数据的技术：

Hadoop生态圈：Hadoop HDFS文件系统 MR计算模型、Hive数据仓库、HBase数据库、Flume日志收集、Kafka消息系统

对于刚刚接触大数据的人大数据工程师怎样养成让我来详细告诉你

Spark生态圈：Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX

对于刚刚接触大数据的人大数据工程师怎样养成让我来详细告诉你

Storm流式计算
分布式协调服务：Zookeeper
NOSQL数据库：Redis、MongoDB
还有RabbitMQ、Impala、Flink、Kylin
机器学习：Mahout
……

这么多技术这么学习呢？

先学Hadoop

Hadoop框架中由两大模块组成，一个HDFS(Hadoop Distributed File System)，是用来存储需要处理的数据，另外一个是MapReduce，是Hadoop的处理数据的计算模型。
学习一门数据库，像MySQL 学点SQL

Hive

只要你会SQL，你就会使用它。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，

可以将sql语句转换为MapReduce任务进行运行。

HBase

HBase即Hadoop DataBase，Hadoop的数据库，HBase是一种 ''NoSQL'' 数据库,即不是RDBMS ，不支持SQL作为主要访问手段。

Sqoop

Sqoop是迁移数据工具，可以在很多数据库之间来迁移，

Flume

Flume是一个分布式的海量日志采集和传输框架，一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Kafka

使用Kafka完成数据的一次收集，多次消费。它是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统。

Spark基于内存计算的框架

Spark Core最为重要
SparkSQL
Spark Streaming
图计算
机器学习

Storm实时的流计算框架

机器学习Mahout

主要学习算法

建议

没有基础的人可以去培训一下，速成

如果你有很多时间，可以直接研究

如果你是牛人，需要你指导一下我。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： 2017helloworld > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

2017helloworld

关注对话

TA的最新馆藏

旧民主主义革命和新民主主义革命
发动机的机油压力是什么意思？机油压力异常的原因有哪些？
钢化玻璃是怎么钢化的？
发动机冒白烟是拉缸了吗
玉米中能提炼出黄金？生物的富集作用，到底隐藏了多少未知？
PID控制原理是什么？

喜欢该文的人也喜欢更多

热门阅读换一换

对于刚刚接触大数据的人 大数据工程师怎样养成 让我来详细告诉你

大数据初学者怎样学习

大数据现在很火很热，但是怎么学习呢？下面我就给大家介绍一下：

这么多技术这么学习呢？

建议

对于刚刚接触大数据的人大数据工程师怎样养成让我来详细告诉你