map/reduce数量的多少是如何决定的?input目录下文件的大小和数量决定map任务的数量 a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定: 参数1: 计算reducer数的公式很简单N=min(参数2,总输入数据量/参数1) 调整map/reduce数量map/reduce的数量不是越多越好,启动和初始化的时间会远远大于逻辑处理的时间,造成资源浪费。 在map执行前合并小文件,减少map数 调整 调整 |
|