分享

greenplum和hive,各有什么特点,哪个适合做数据仓库呢

 南庄小筑 2020-03-08

Greenplum和Hive都自称是数据仓库,但是两种体系架构和使用场景有非常大的不同。

1.Greenplum是MPP数据库,适合处理传统的结构化、半结构化数据库,可以处理PB级别数据。Hive是SQl on Hadoop,是分布式数据库,适合处理超大规模数据,比如100个节点以上。小规模集群下速度比较慢,一般适合做离线计算。

2.使用场景;

  • 离线计算:1PB数据以下,只有结构化数据,Greenplum首选。非结构化数据,用MapReduce或者Spark处理。处理后的结果放到Greenplum中查询。
    1PB以上数据,其实非结构化数据偏多,用Spark/Mapreduce处理,GP查询。

  • 业务分析:Greenplum首选,Hive查询速度比Greenplum要差10倍。

  • 机器学习:Spark

  • 地理信息分析:Greenplum+PostGIS

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多