人工智能[3336]一篇讲明白 Hadoop 生态的三大部件[1]

赵站长的博客 2024-03-28 发布于北京

展开全文

Spark 由 Twitter 公司开发并开源，解决了海量数据流式分析的问题。Spark 首先将数据导入 Spark 集群，然后通过基于内存的管理方式对数据进行快速扫描，通过迭代算法实现全局 I/O 操作的最小化，达到提升整体处理性能的目的。

进入大数据阶段就意味着进入NoSQL阶段，更多的是面向OLAP场景，即数据仓库、BI应用等。

大数据技术的发展并不是偶然的，它的背后是对于成本的考量。集中式数据库或者基于MPP架构的分布数据库往往采用的都是性能稳定但价格较为昂贵的小型机、一体机或者PC服务器等，扩展性相对较差；而大数据计算框架可以基于价格低廉的普通的硬件服务器构建，并且理论上支持无限扩展以支撑应用服务。

在大数据领域中最有名的就是 Hadoop 生态，总体来看，它主要由三部分构成：底层文件存储系统 HDFS（Hadoop Distributed File System，Hadoop 分布式文件系统）、资源调度计算框架 Yarn（Yet Another Resource Negotiator，又一个资源协调者）以及基于 HDFS 与 Yarn的上层应用组件，例如 HBase、Hive 等。一个典型的基于 Hadoop 的应用如下图所示。

一、HDFS

HDFS 被设计成适合运行在通用硬件（Commodity Hardware）上的分布式文件系统。它和现有的分布式文件系统有很多共同点，例如典型的 Master-Slave 架构（这里不准备展开介绍），也有不同点，HDFS 是一个具有高度容错性的系统，适合部署在廉价的机器上。关于HDFS 这里主要想说两点，默认副本数的设置以及机架感知（Rack Awareness）。

HDFS 默认副本数是 3，这是因为 Hadoop 有着高度的容错性，从数据冗余以及分布的角度来看，需要在同一机房不同机柜以及跨数据中心进行数据存储以保证数据最大可用。因此，为了达到上述目的，数据块需要至少存放在同一机房的不同机架（2 份）以及跨数据中心的某一机架（1 份）中，共 3 份数据。

机架感知的目的是在计算中尽量让不同节点之间的通信能够发生在同一个机架之内，而不是跨机架，进而减少分布式计算中数据在不同的网络之间的传输，减少网络带宽资源的消耗。例如当集群发生数据读取的时候，客户端按照由近到远的优先次序决定哪个数据节点向客户端发送数据，因为在分布式框架中，网络 I/O 已经成为主要的性能瓶颈。

只有深刻理解了这两点，才能理解为什么 Hadoop 有着高度的容错性。高度容错性是Hadoop 可以在通用硬件上运行的基础。

我是一位爱学习的老人！本站主要是些学习体验与分享(其中会引用一些作品的原话并结合我的一生体会与经验加工整理而成！在此一并感谢！如有不妥之处敬请与我联系,我会妥善处理，谢谢！)我写的主要是中老年人各方面应注意的事儿！退休后我希望通过这个平台广交朋友，互助交流，共筑美好生活！！！！！！更多文章请参看http://www.赵站长的博客。期待大家的光临与指教哦^0^！欢迎大家转发！