分享

数据仓库和大数据的区别?

 一剑e屋 2019-12-03

数据仓库简单理解是一套软件解决方案,作用是把业务系统的数据加载到一个单独的数据库中,并依据业务逻辑建立数据模型,供企业查询分析决策之用。它的出现是为了解决基于业务数据库来做分析时面临的很多问题,包括:结构复杂,数据脏乱,难以理解,历史缺失,数据量大时查询缓慢等。数据仓库的概念最早出现在20世纪70年代,出现时间远远早于大数据。

大数据与数据仓库不同,它不是一套解决方案,现在数据面临的新形态。传统的数据仓库中存储的往往是企业内部的数据,特点是结构化的数据。所谓结构话指的是非常规整的,类似Excel表格那样的数据。大数据往往是非结构话的,比如设备的日志文件,网站的埋点信息等,xml文件等。相对于传统数据,大数据量更大,类型更多,处理的复杂度也更高。

可以理解,数据仓库是数据的容器,里面放的是传统的结构化数据。针对大数据的特点,数据仓库的方式已经不适用。而数据湖是针对大数据特点产生的新技术,可以理解为大数据容器。数据湖和数据仓库最大的不同在于,数据仓库是先处理再存储,数据湖是先存储后处理。怎么理解呢?我拿炒菜类比可能大家比较好理解。比如炒土豆,数据仓库是先把土豆削皮,切丝,放在冰箱里等着炒菜的时候拿出来用。这样做的好处是,炒的时候方便,坏处是如果哪天我不想吃土豆丝,而想吃土豆片就没有办法。数据湖是直接把土豆放冰箱,等炒菜的时候再拿出来处理。好处是可以根据具体的分析具体决定如何处理。

数据仓库和数据湖也是一样的道理。数据仓库先把数据处理好存储再数据仓库中,便于分析,但是也就失去了分析的灵活性。数据湖是不管什么数据,先存起来再说。随着计算机处理能力的增强,现用先处理的方式也不是问题,而且还能保证灵活性。可以说,数据湖更适合大数据这种新的数据形式。

我理解题主是把两个概念搞混了。数据仓库是容器,对应的新的容器是数据湖,而不是大数据。大数据是数据湖里的数据。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多