海量数据的分布式存储 HDFS(Hadoop Distributed File System) NameNode(HA、Federation): 负责DataNode的管理 接收客户端的响应 DataNode 数据的存储,以block块的方式存放,默认的block size为128M 海量数据的分布式计算 MapReduce mr是基于Yarn 资源调度管理器实现的一个计算平台 Yarn ResourceManager 管理整个集群资源、及其调度 接收用户提交的作业,将作业分配给具体的NodeManager进行执行 NodeManager 接收ResourceManager分配的任务,在自己所在机器上面进行资源调度 分布式协调框架 ZooKeeper 通过zk的leader选举机制,选举出NameNode和ResourceManager的Active和StandBy NameNode的守护进程: ZKFC 同步用户操作的edit日志进程: JournalNode ------------------------------------------------------------------------------------ 访问方式: Web: 50070(namenode的浏览端口) 8088(yarn的浏览默认端口) 19888(historyserver) 9000---->是rpc的通信端口 Shell hdfs ... yarn Java API FileSystem MapReduce ------------------------------------------------------------------------------------ 什么样的数据才能被SQL进行操作? SQL(Structured Query Language):结构化的查询语言 DDL DML DQL 1、结构化的数据: 什么是结构化的数据? 存放在RDBMS中的数据就称之为结构化的数据 2、需要有表的概念、行的概念、列的概念 表或者数据库是对数据的一个逻辑的划分 文件才是对数据的一个物理的划分 行---->数据文件中的行 列---->数据文件中的列 在HDFS中的表的概念或者数据库的概念,体现为一个个的目录
|
|
来自: BIGDATA云 > 《Hadoop大数据分布式存储》