发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
Greenplum和Hive都自称是数据仓库,但是两种体系架构和使用场景有非常大的不同。
1.Greenplum是MPP数据库,适合处理传统的结构化、半结构化数据库,可以处理PB级别数据。Hive是SQl on Hadoop,是分布式数据库,适合处理超大规模数据,比如100个节点以上。小规模集群下速度比较慢,一般适合做离线计算。
2.使用场景;
离线计算:1PB数据以下,只有结构化数据,Greenplum首选。非结构化数据,用MapReduce或者Spark处理。处理后的结果放到Greenplum中查询。1PB以上数据,其实非结构化数据偏多,用Spark/Mapreduce处理,GP查询。
业务分析:Greenplum首选,Hive查询速度比Greenplum要差10倍。
机器学习:Spark
地理信息分析:Greenplum+PostGIS
来自: 南庄小筑 > 《数据中台》
0条评论
发表
请遵守用户 评论公约
学习Hive基础教程
学习Hive基础教程。hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将...
基于云计算的大数据平台基础设施建设实践
基于云计算的大数据平台基础设施建设实践。比如我们现在要做的一件事情就是基于数据任意切换计算引擎,因为我们知道大数据是计算跟着数...
浅谈开源大数据平台的演变
它在Hadoop上建立了一个数据仓库框架,可以将结构化的数据文件映射成一张数据库表,并提供类似SQL的查询接口,弥补了Hadoop和数据仓库操...
大数据Hadoop、Hive及Spark的内在联系
大数据Hadoop、Hive及Spark的内在联系。2.数据的计算(Data calculation),在数据有效存储的基础上,对数据的统计和分析本质上就是数据...
悟空问答
Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具。Impala为存储在HDFS和HBase中的数据提供了实时SQL查询功能,基于HIVE服务,并可共享HIV...
part9-认识SparkSql
认识SparkSql1.1SparkSql概述1.1.1SparkSql与DataFrameSparkSql特点:SparkSql能够处理多种数据原SparkSql提升了hive的计算速度(spark)与计算复杂度(可以使数据仓库使用机器学习)。4)Hadoop:Hadoop...
干货:大数据学习路线
HDFS系统的模块架构、HDFS写数据流程、HDFS读数据流程。HIVE中的DDL操作、HIVE中的DML操作、在HIVE中如何实现高效的JOIN查询、HIVE的内...
大数据面试,经常问哪些东西?
大数据面试,经常问哪些东西?而且大数据开发、数据仓库开发、数据分析方向问的东西也是不同的。而Spark无论是数据开发,还是数据仓库开发都是要会的。其实数据仓库的东西也是很多的,如数据建模、拉链...
Facebook数据仓库揭秘:RCFile高效存储结构
Facebook数据仓库揭秘:RCFile高效存储结构Facebook数据仓库揭秘:RCFile高效存储结构。本文介绍了Facebook公司数据分析系统中的RCFile...
微信扫码,在手机上查看选中内容