吊炸天：hadoop 2.7.0版本发布

北书房2014 2015-05-05

展开全文

hadoop 2.7.0已经发布，在这个版本中，包含几个非常重要的功能。
【重要声明】
（1）从这个版本开始，JDK必须是JDK 7+，JDK 6以及更低版本不再支持；
（2）hadoop 2.7.0是测试版本，不建议在生产环境中使用。

1. Hadoop Common

支持Windows Azure blob存储，可以直接实用MapReduce处理存储在blob存储中的数据。这个feature估计在国内基本用不到。

2. Hadoop HDFS

(1)支持truncate操作，相当于回滚操作。这是一个非常有价值的feature，方便用户基于HDFS构建自己的项目。
(2)支持为每种存储类型设置quota（注：HDFS已经支持异构存储系统，比如同时存在磁盘，SSD，flash，内存等存储介质）
(3)支持同一个文件存在不同block大小。用户在往HDFS某个文件中append数据时，可选择直接将数据append到当前block末尾，也可以选择append到一个新的block中，这可通过向{{append}} API传入{{CreateFlag.APPEND}}和{{CreateFlag.NEW_BLOCK}}标志位实现。与第一个feature的价值一样，方便用户基于HDFS构建自己的项目。

3. Hadoop YARN

(1)YARN的授权模块变成插拔式的，用户可根据需要编写授权模块；这个feature主要是hortonworks为了自己的市场增加的功能，hortonworks前段时间搞了一个新的开源项目Apache Ranger，加到了自己的hadoop发行版中。
(2) 对DistributedCache功能增强，DistributedCache模块拥有独立的服务，可以独立升级，也可以通过命令显式地预先cache文件。

4. Hadoop MapReduce

（1）允许用户设置每个job可同时运行的map task和reduce task数目。这个功能非常实用，相信很多公司一直想要这个feature。用户可通过以下两个参数控制同时运行的task数目：
mapreduce.job.running.map.limit (default: 0, for no limit)
mapreduce.job.running.reduce.limit (default: 0, for no limit)
（2）当最终输出产生的文件数目非常多时，加速FileOutputCommitter组件处理速度。FileOutputCommitter主要功能是将作业产生的文件mv（实际是rename）到最终的目录下（注意，为了保证原子性，MR job并不会将结果直接写入最终目录下，而是暂时写到一个临时文件下），之前是单线程做的，当文件数目非常多时，这个过程可能耗时1~2分钟。