分享

Hadoop平台架构

 陈永正的图书馆 2017-07-03
  组件 格式 数据量 压缩大小 原始大小 Imapla Parquet ? 30.1 G 98.6 G Sparksql Parquet ? 69.4 G 98.6 G Hive Rcfile ? 93.4 G 98.6 G Presto Orcfile ? 16.2 G 98.6 G Hbase Snappy ? 0.35T 2.3T # 每天入hbase数据量 注意:考虑生成压缩文件的效率,时间换空间的操作! >>>>>>>>Txt格式 组件 耗时 Hive 342.235s Presto 73.4s Impala 20.57s Sparksql 169.465s Sparksql[chache] 95.9s >>>>>>>>Parquet格式 组件 耗时 Hive 322.201s Presto 37.91s Impala 17.57s Sparksql 124.9s Sparksql[chache] 108s >>>>>>>>Orc格式 组件 耗时 Hive 276.179s Presto 101.4s Impala 0s #不支持此格式 Sparksql 46s Sparksql[chache] 35s >>>>>>>>RcFile格式 组件 耗时 Hive 306.264s Presto 36s Impala 18.14s Sparksql 177.799s Sparksql[chache] 176.5s >>>>>>>>>>>>>2组join FcFile文件格式 组件 耗时 其它问题记录 Hive 1600s Presto 700s Impala 1175.29s Sparksql 689.047s Sparksql[chache] 效率提升不明显,未测试 组件 耗时 其它问题记录 Hive 300s Presto 60s Impala 2.67s Sparksql 40 s Sparksql[chache] 效率提升不明显,未测试 >>>>>>>>>>>>>>>>>大大表两两关联(亿级+百万级)测试 ==>TextFile 组件 耗时 其它问题记录 Hive 641.937s 第一次执行 Impala 267.526s 第一次执行 Impala 262.727s 第二次执行 Spark-sql 300.355s 第一次执行 Spark-sql 294.922s 第二次执行 ==>Parquet 组件 耗时 其它问题记录 Hive 57.702s 第一次执行 Impala 1.359s 第一次执行 Impala 1.232s 第二次执行 Spark-sql 2.977s 第一次执行 Spark-sql 2.857s 第二次执行 Hadoop压缩算法选择: ·mapreduce.map.output.compress.codec ·mapreduce.output.fileoutputformat.compress.codec ·mapreduce.output.fileoutputformat.compress.type – org.apache.hadoop.io.compress.DefaultCodec – org.apache.hadoop.io.compress.SnappyCodec [最佳选择] – org.apache.hadoop.io.compress.BZip2Codec /GzipCodec【GzipCodec压缩最高,但是时间上比较耗时】

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多