搜索

分享

QQ空间 QQ好友新浪微博微信

大数据教程分享Hadoop入门学习线路图

好程序员IT 2020-06-21

展开全文

　　好程序员大数据教程分享Hadoop入门学习线路图，Hadoop是系统学习大数据的必会知识之一，Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的。YARN是一种新的Hadoop资源管理器，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

　　如何入门Hadoop学习，不妨从以下这些知识点学起，希望我的分享能对大家的学习有帮助：

　　先附一张大数据学习线路图：

　　Zookeeper

　　这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

　　Mysql

　　我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那？你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

　　Sqoop

　　这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

　　Hive

　　这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。

　　Oozie

　　既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。

　　Hbase

　　这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：好程序员IT > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

好程序员IT

关注对话

TA的最新馆藏

好程序员Python培训分享入门之元组列表字典详解
简述fetchone()函数
Traceback具体使用方法
Python生成器与迭代器
API自动化实战详解
Python生成器的详细介绍

喜欢该文的人也喜欢更多

热门阅读换一换