分享

Hadoop(分布式)

 BIGDATA云 2018-07-13

海量数据的分布式存储
HDFS(Hadoop Distributed File System)
NameNode(HA、Federation):
负责DataNode的管理
接收客户端的响应
DataNode
数据的存储,以block块的方式存放,默认的block size为128M
海量数据的分布式计算
MapReduce
mr是基于Yarn 资源调度管理器实现的一个计算平台
Yarn
ResourceManager
管理整个集群资源、及其调度
接收用户提交的作业,将作业分配给具体的NodeManager进行执行
NodeManager
接收ResourceManager分配的任务,在自己所在机器上面进行资源调度
分布式协调框架
ZooKeeper
通过zk的leader选举机制,选举出NameNode和ResourceManager的Active和StandBy
NameNode的守护进程:
ZKFC
同步用户操作的edit日志进程:
JournalNode
------------------------------------------------------------------------------------
访问方式:
Web:
50070(namenode的浏览端口) 8088(yarn的浏览默认端口) 19888(historyserver)
9000---->是rpc的通信端口
Shell
hdfs ...
yarn
Java API
FileSystem
MapReduce
------------------------------------------------------------------------------------
什么样的数据才能被SQL进行操作?
SQL(Structured Query Language):结构化的查询语言
DDL
DML
DQL
1、结构化的数据:
什么是结构化的数据?
存放在RDBMS中的数据就称之为结构化的数据
2、需要有表的概念、行的概念、列的概念
表或者数据库是对数据的一个逻辑的划分
文件才是对数据的一个物理的划分
行---->数据文件中的行
列---->数据文件中的列
在HDFS中的表的概念或者数据库的概念,体现为一个个的目录

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多