Hadoop平台架构

陈永正的图书馆 2017-07-03

展开全文

组件格式数据量压缩大小原始大小 Imapla Parquet ? 30.1 G 98.6 G Sparksql Parquet ? 69.4 G 98.6 G Hive Rcfile ? 93.4 G 98.6 G Presto Orcfile ? 16.2 G 98.6 G Hbase Snappy ? 0.35T 2.3T # 每天入hbase数据量注意：考虑生成压缩文件的效率,时间换空间的操作！ >>>>>>>>Txt格式组件耗时 Hive 342.235s Presto 73.4s Impala 20.57s Sparksql 169.465s Sparksql[chache] 95.9s >>>>>>>>Parquet格式组件耗时 Hive 322.201s Presto 37.91s Impala 17.57s Sparksql 124.9s Sparksql[chache] 108s >>>>>>>>Orc格式组件耗时 Hive 276.179s Presto 101.4s Impala 0s #不支持此格式 Sparksql 46s Sparksql[chache] 35s >>>>>>>>RcFile格式组件耗时 Hive 306.264s Presto 36s Impala 18.14s Sparksql 177.799s Sparksql[chache] 176.5s >>>>>>>>>>>>>2组join FcFile文件格式组件耗时其它问题记录 Hive 1600s Presto 700s Impala 1175.29s Sparksql 689.047s Sparksql[chache] 效率提升不明显,未测试组件耗时其它问题记录 Hive 300s Presto 60s Impala 2.67s Sparksql 40 s Sparksql[chache] 效率提升不明显,未测试 >>>>>>>>>>>>>>>>>大大表两两关联（亿级+百万级）测试 ==>TextFile 组件耗时其它问题记录 Hive 641.937s 第一次执行 Impala 267.526s 第一次执行 Impala 262.727s 第二次执行 Spark-sql 300.355s 第一次执行 Spark-sql 294.922s 第二次执行 ==>Parquet 组件耗时其它问题记录 Hive 57.702s 第一次执行 Impala 1.359s 第一次执行 Impala 1.232s 第二次执行 Spark-sql 2.977s 第一次执行 Spark-sql 2.857s 第二次执行 Hadoop压缩算法选择： ·mapreduce.map.output.compress.codec ·mapreduce.output.fileoutputformat.compress.codec ·mapreduce.output.fileoutputformat.compress.type – org.apache.hadoop.io.compress.DefaultCodec – org.apache.hadoop.io.compress.SnappyCodec [最佳选择] – org.apache.hadoop.io.compress.BZip2Codec /GzipCodec【GzipCodec压缩最高，但是时间上比较耗时】