组件 格式 数据量 压缩大小 原始大小
Imapla Parquet ? 30.1 G 98.6 G
Sparksql Parquet ? 69.4 G 98.6 G
Hive Rcfile ? 93.4 G 98.6 G
Presto Orcfile ? 16.2 G 98.6 G
Hbase Snappy ? 0.35T 2.3T # 每天入hbase数据量
注意:考虑生成压缩文件的效率,时间换空间的操作!
>>>>>>>>Txt格式
组件 耗时
Hive 342.235s
Presto 73.4s
Impala 20.57s
Sparksql 169.465s
Sparksql[chache] 95.9s
>>>>>>>>Parquet格式
组件 耗时
Hive 322.201s
Presto 37.91s
Impala 17.57s
Sparksql 124.9s
Sparksql[chache] 108s
>>>>>>>>Orc格式
组件 耗时
Hive 276.179s
Presto 101.4s
Impala 0s #不支持此格式
Sparksql 46s
Sparksql[chache] 35s
>>>>>>>>RcFile格式
组件 耗时
Hive 306.264s
Presto 36s
Impala 18.14s
Sparksql 177.799s
Sparksql[chache] 176.5s
>>>>>>>>>>>>>2组join FcFile文件格式
组件 耗时 其它问题记录
Hive 1600s
Presto 700s
Impala 1175.29s
Sparksql 689.047s
Sparksql[chache] 效率提升不明显,未测试
组件 耗时 其它问题记录
Hive 300s
Presto 60s
Impala 2.67s
Sparksql 40 s
Sparksql[chache] 效率提升不明显,未测试
>>>>>>>>>>>>>>>>>大大表两两关联(亿级+百万级)测试
==>TextFile
组件 耗时 其它问题记录
Hive 641.937s 第一次执行
Impala 267.526s 第一次执行
Impala 262.727s 第二次执行
Spark-sql 300.355s 第一次执行
Spark-sql 294.922s 第二次执行
==>Parquet
组件 耗时 其它问题记录
Hive 57.702s 第一次执行
Impala 1.359s 第一次执行
Impala 1.232s 第二次执行
Spark-sql 2.977s 第一次执行
Spark-sql 2.857s 第二次执行
Hadoop压缩算法选择:
·mapreduce.map.output.compress.codec
·mapreduce.output.fileoutputformat.compress.codec
·mapreduce.output.fileoutputformat.compress.type
– org.apache.hadoop.io.compress.DefaultCodec
– org.apache.hadoop.io.compress.SnappyCodec [最佳选择]
– org.apache.hadoop.io.compress.BZip2Codec /GzipCodec【GzipCodec压缩最高,但是时间上比较耗时】
|