Hadoop 的丧钟：并非公共云、而是复杂性

板桥胡同37号 2019-10-08

展开全文

作者：Monte Zweben是AI数据平台公司Splice Machine的首席执行官。

Hadoop正在慢慢地死去，但是致命因素就隐藏在我们眼皮底下。（提示：在标题中。）

复杂性可能为Hadoop发行版敲响丧钟。

对于Hadoop的三大分销商而言，2019年可谓是困难重重的一年。从对于1月份完成的Cloudera/Hortonworks合并的内部乐观和外部怀疑，到MapR在5月份发布即将完蛋的信函、随后被HPE收购，再到Cloudera在6月份非常糟糕的周三（股价暴跌和首席执行官Tom Reilly离职），这个领域尽是不好的消息。也许最有说服力的内容来自Cloudera的季度收益公告，该公告将Hadoop的挑战描述为需要云解决方案：

“虽然第一季度一些客户因预料新平台的发布而选择推迟续订和扩展协议，从而影响了我们的全年前景，但这种客户反馈和热情证实了客户需要我们目标市场中的企业数据云解决方案。”

复杂性很致命

Hadoop在云端也很复杂。

好多文章声称，公共云已杀死了Hadoop，但是正如我之前在这里所写的那样，对于这种分布式技术的未来，我却持相反的看法。

Hadoop面临两大挑战：

运维复杂性：DevOps面临的负担是，为基于商用硬件的大规模分布式系统确保可用性、高性能和安全性。
开发复杂性：开发团队面临的负担是，将许多不同的计算和存储部件捆绑起来，组成一种实用的解决方案，又没有数据移动造成的延迟。

公共云消除了运维复杂性方面的挑战。这对像Cloudera、Hortonworks和MapR这些很晚进入到云时代的Hadoop发行版公司来说是沉重的打击。AWS、Azure和谷歌云平台（GCP）几乎消除了运行Hadoop生态系统核心组件的运维复杂性。

然而我认为，即便在公共云，成功采用这项技术仍存在巨大的挑战。AWS的产品页面上实际上有数百种计算和存储解决方案。我们认为业界对开发人员过于依赖。

你是想要造车还是开车？

使用Hadoop就好比用诸多部件组装一辆汽车。

Hadoop是一套很棒的技术组件！我们用它来搭建自己的数据平台。但是与为Hadoop实施而苦恼的多位CIO交谈后发现，我逐渐认为这些组件可能实在太低级了。打个比方，我们需要运输时，我们根据运输需求购买汽车。我们并不购买单独的汽车零部件，比如喷油器、车轴、发动机和悬架系统。我们让那些部件由制造商来组装。

同样，你要连接AWS Dynamo来运行应用程序时、连接AWS Redshift来分析数据、连接AWS SageMaker来构建机器学习模型、连接AWS EMR来运行基于Spark的ETL等时，你就在组装“汽车”。这就是“Lambda架构”所谓的管道胶带。

然而，这导致了复杂性和数据移动。而数据移动导致了等待数据进行“ETL处理”时常常遇到的延迟。此外，创建这些架构所需的技能稀缺且昂贵。

因此，无论是不是可以通过迁移到云端来消除运维复杂性（这的确并非易事），你仍然面临把所有计算和存储部件捆绑起来的集成复杂性。

一种预先集成的包装方法

我们的观点是，就像用于运输的“汽车”一样，公司需要大规模可扩展的基础设施来处理操作、分析和机器学习等混合工作负载，但它们应该没必要自行组装该实用功能。

我们认为，Hadoop的某些组件很适合嵌入和集成，从而让公司既能够构建新的应用程序，又能够更新改造现有的应用程序。另一些公司以其他方式将这些组件集成起来。不过，我们认为这种预先集成必不可少；除非预先集成普及开来，否则 Hadoop仍很难，即便在公共云也是如此。