公司终于决定放弃传统集群，全面拥抱Hadoop生态！

任易x9cojw24ff 2021-07-28

展开全文

这两天有粉丝问我，在一个成熟大数据系统中，最不能缺少的核心是什么？

我仔细思考了一下，是消息系统之王的 Kafka 吗？不，还有 RocketMQ 和 Pulsar 可以选。

是人人都会接触的协调系统 Zookeeper 吗？也未必，Redis 如日中天！

大数据技术栈一览

接下来，我顺着一个成熟大数据系统的工作模式反复考虑，最终有了结论：任何一个分布式程序执行，都需要从系统申请资源。

我认为，大数据系统的核心是 Hadoop 集群中的资源管理模块——YARN！

分布式资源调度引擎 YARN

YARN 从 Hadoop 2.0 之后被引入，一经推出，便迅速成为最受欢迎的分布式资源调度框架，负责管理集群中的全部资源，以及调度运行在YARN之上的各种计算任务。

像 HDFS 的核心组件一样，YARN 同样是主从结构，核心是Resource Manager、NodeManager、ApplicationMaster、Container 组件。

YARN 的实现逻辑与基本架构

YARN 的功能非常强大，但实现原理也非常复杂。JobTracker、TaskTracker模型的最大缺陷是扩展性差，YARN 利用 Resource Manager 解耦后分而治之，大大提升了扩展性。

大厂为什么重视 YARN

基于 Hadoop 构建大数据生态的公司集群规模一般都很大，主要是 BATJ 华为等一线互联网大厂，而 Hadoop 最核心的 3 大部分就是 HDFS、YARN、MapReduce。

YARN 自从诞生开始，就越来越被大量企业作为大数据领域核心基础平台使用，掌握了 YARN 就等于掌握了 Hadoop 的核心，也就拥有了大数据领域的核心竞争力！

Hadoop 3 大核心组件

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：任易x9cojw24ff > 《Yarn》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

任易x9cojw24ff

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换