hadoop 2.7.0已经发布,在这个版本中 ,包含几个非常重要的功能。 【重要声明】 (1)从这个版本开始,JDK必须是JDK 7+,JDK 6以及更低版本不再支持; (2)hadoop 2.7.0是测试版本,不建议在生产环境中使用。
1. Hadoop Common 支持Windows Azure blob存储,可以直接实用MapReduce处理存储在blob存储中的数据。这个feature估计在国内基本用不到。

2. Hadoop HDFS
(1)支持truncate操作,相当于回滚操作。这是一个非常有价值的feature,方便用户基于HDFS构建自己的项目。 (2)支持为每种存储类型设置quota(注:HDFS已经支持异构存储系统,比如同时存在磁盘,SSD,flash,内存等存储介质) (3)支持同一个文件存在不同block大小。用户在往HDFS某个文件中append数据时,可选择直接将数据append到当前block末尾,也可以选择append到一个新的block中,这可通过向{{append}} API传入{{CreateFlag.APPEND}}和{{CreateFlag.NEW_BLOCK}}标志位实现。与第一个feature的价值一样,方便用户基于HDFS构建自己的项目。

3. Hadoop YARN
(1)YARN的授权模块变成插拔式的,用户可根据需要编写授权模块;这个feature主要是hortonworks为了自己的市场增加的功能,hortonworks前段时间搞了一个新的开源项目Apache Ranger,加到了自己的hadoop发行版中。 (2) 对DistributedCache功能增强,DistributedCache模块拥有独立的服务,可以独立升级,也可以通过命令显式地预先cache文件。

4. Hadoop MapReduce
(1)允许用户设置每个job可同时运行的map task和reduce task数目。这个功能非常实用,相信很多公司一直想要这个feature。用户可通过以下两个参数控制同时运行的task数目: mapreduce.job.running.map.limit (default: 0, for no limit) mapreduce.job.running.reduce.limit (default: 0, for no limit) (2)当最终输出产生的文件数目非常多时,加速FileOutputCommitter组件处理速度。FileOutputCommitter主要功能是将作业产生的文件mv(实际是rename)到最终的目录下(注意,为了保证原子性,MR job并不会将结果直接写入最终目录下,而是暂时写到一个临时文件下),之前是单线程做的,当文件数目非常多时,这个过程可能耗时1~2分钟。
|