1.1 关于Cascading Cascading是一个数据处理的API和查询处理计划,用于定义,共享数据处理工作流,还能在单一计算节点或分布式计算集群上执行数据处理工作流。在单一计算节点,Cascading的本地模式(local mode)可以在部署到集群之前,用于测试代码和处理本地文件。在一个部署了Apache Hadoop的分布式计算集群上,Cascading在Hadoop API上增加了一个抽象层,大大简化了Hadoop 应用程序的开发,job的创建和调度。
1.2 Cascading使用场景
为什么用Cascading?
Cascading的开发是为了使企业能够使用Hadoop快速开发复杂的数据处理应用。Cascading的典型使用需求,是以下两种情况之一:
谁是Cascading的使用者? Cascading的用户通常分为三种人:
所有这三个角色可以由开发人员来充当,但是因为Cascading支持这些职责完全分离,一些组织可能选择使用非开发人员在Hadoop集群上运行专门的应用程序或建立工序。
1.3 什么是Apache Hadoop? 引用自Hadoop的网站,它“是一个软件平台,可以让一身轻松编写和运行处理海量数据的应用程序”。 Hadoop提供一个数据存储层保存大量数据,并提供一个执行层运行并行的跨集群的应用程序,它通过调度存储数据的子集来实现数据处理。
1.4 Hadoop 1 VS Hadoop 1 Cascading2.6通过提供了两个Java的依赖实现同时支持Hadoop的1.x和2.x,Cascading-hadoop.jar和Cascading-hadoop2-mr1.jar。这些依赖关系可以互换,但hadoop2-mr1.jar引入了新API并在适当的地方调用了废弃的老API。应当指出的hadoop1-mr1.jar仅支持的MapReduce1 API约定。有了这个命名方案,新API约定可以引入并避免命名冲突。
翻译链接:http://docs./cascading/2.6/userguide/html/ 初次翻译,只是在Google翻译的基础上进行了修正,方便看而已,要求高的自觉绕过看原文。 转载注明。
|
|