【原】Hadoop(分布式)

BIGDATA云 2018-07-13

展开全文

海量数据的分布式存储

HDFS(Hadoop Distributed File System)

NameNode(HA、Federation)：

负责DataNode的管理

接收客户端的响应

DataNode

数据的存储，以block块的方式存放，默认的block size为128M

海量数据的分布式计算

MapReduce

mr是基于Yarn 资源调度管理器实现的一个计算平台

Yarn

ResourceManager

管理整个集群资源、及其调度

接收用户提交的作业，将作业分配给具体的NodeManager进行执行

NodeManager

接收ResourceManager分配的任务，在自己所在机器上面进行资源调度

分布式协调框架

ZooKeeper

通过zk的leader选举机制，选举出NameNode和ResourceManager的Active和StandBy

NameNode的守护进程：

ZKFC

同步用户操作的edit日志进程：

JournalNode

------------------------------------------------------------------------------------

访问方式：

Web：

50070(namenode的浏览端口) 8088(yarn的浏览默认端口) 19888(historyserver)

9000---->是rpc的通信端口

Shell

hdfs ...

yarn

Java API

FileSystem

MapReduce

------------------------------------------------------------------------------------

什么样的数据才能被SQL进行操作？

SQL(Structured Query Language)：结构化的查询语言

DDL

DML

DQL

1、结构化的数据：

什么是结构化的数据？

存放在RDBMS中的数据就称之为结构化的数据

2、需要有表的概念、行的概念、列的概念

表或者数据库是对数据的一个逻辑的划分

文件才是对数据的一个物理的划分

行---->数据文件中的行

列---->数据文件中的列

在HDFS中的表的概念或者数据库的概念，体现为一个个的目录

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： BIGDATA云 > 《Hadoop大数据分布式存储》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

BIGDATA云

关注对话

TA的最新馆藏

MongoDB社区版jar
银河麒麟V10 Linux 内核版本
[转] mongodb大法好，社区版在CentOS7云服务器上的安装教程
软著升级清单
[转] 治喉癌老偏方
[转] 9种中医体质的饮食调理

喜欢该文的人也喜欢更多

热门阅读换一换