分享

大数据漫谈 | 特不正经的大数据

 mandy53wiuq5i6 2020-10-14

话说,大数据侠闪现江湖...

大数据一出,谁与争锋?

搞得不认识大数据侠是一件让江湖人士耻笑的大事

一时间犹如洛阳纸贵,各家纷纷与大数据侠攀亲带故...

做大数据营销的, 做大数据医疗的,做大数据农业的...

百花争鸣,百家齐放..

但到底什么是大数据?

抛开 “大数据 = 产业开发区 = 房地产” 的不算...

各家争辩中,依然有着一种鸡同鸭讲的感觉...

究其原因,大家谈的东西不在一个层面。

特不正经归了一下类,大数据可以分为三个层面来讲:

  1. 大数据的拥有者

    手里有数据的,比如上亿的消费者,会员,用户的阿里,腾讯,比如有身份信息、治安信息、交通信息的公安部门

  2. 大数据的IT技术提供者

    提供大数据技术的公司,比如大数据存储软件,处理软件,分析软件的

  3. 提供大数据服务者

       手里没有数据,也没有软硬件,但有能力为客户提供咨询,开发,部署,技术支持的公司,或者卖数据的

大家可以对号入座...

玩大数据可以玩成大流氓级别的,咱不带阿里腾讯这些大数据流氓玩...

今天,特不正经和大家一起来解剖解剖纯的大数据技术。

不过,特不正经饿了,还是先做饭吧...

特不正经原来是用一个小锅烧饭,家里人越来越多,锅就越来越大...

只能用天下第一大锅了,据说IBM,EMC,HDS等少数公司生产这种大锅。

至于菜吗,要Oracle、Microsoft,SAP这些公司来煮菜。

但是人实在太多,天下第一大锅也不行了,怎么办?...

这时候只能用很多小锅了,10只不行,就20只,再不行,100只,1000只一起烧...

生产厂商可多了去了,只要能生产PC电脑的厂家都可以。

煮菜的吗? 一般是一个叫“Hadoop”的师傅来煮菜。

这就是传统存储和大数据存储的差别。

我们提到的大数据HDFS指的就是存放数据的技术。

特不正经简单介绍一下Hadoop的由来:

2003年,Google发表了Google File System的论文。

有个叫Doug Cutting的大牛,依照论文实现了一套系统,这是Hadoop的前生。

Hadoop是他儿子的一个玩具,一只大象。

后来Doug Cutting被Yahoo招安,将项目开源...

呵呵,Yahoo不是一家正经的公司,主业玩完了,副业现在风靡全球。

嗯,好了,回到吃饭上来,现在我们有 100只HDFS的锅了。

现在Hadoop师傅开始烧菜...

要烧几百人的菜,要让100只锅同时开动,把任务分给100只锅,这个过程叫Map。

烧好了以后,再把烧好的菜放在一起,这个过程叫Reduce。

这就大数据中的MapReduce。

有了HDFS(锅)和MapReduce(铲子),什么菜都能烧,多少人的菜都能烧...

但是,让100只锅一起烧菜,你得告诉Hadoop师傅。

可是MapReduce这个铲子很难用,

要学会特殊的技能(MapReduce程序)。

为了吃个菜居然要写复杂程序!

有没有简单点的办法?

能不能用脚本语言或者SQL语句来指挥烧菜?

有!

答案是Pig和Hive。

Pig是把脚本语言自动转换成MapReduce程序。

Hive是把SQL语言自动转换成MapReduce程序。

嗯,使用了Pig和Hive,方便多了。

方便是方便了,但是...

有时候吃顿饭,居然要等几个小时,速度太慢了....

于是,为了解决慢的问题,Impala,Drill诞生了,直接在HDFS上跑,确实快了不少。

但是,一直没有达到人们期望的流行度。

这时候Spark和SparkSQL被发明出来了。它们的设计理念是,MapReduce慢,如果我用新一代通用内存计算引擎Spark来跑SQL,那我就能跑的更快。而且用户不需要维护两套系统。

这就好比如果你厨房小,人又懒,对吃的精细程度要求有限,那你可以买个压力电饭煲,把大锅里的菜放到电饭锅里烧。

好吧,我们整理一下...

上面就是大数据家族Hadoop中最基本的组件介绍,底层HDFS,上面跑MapReduce或者Spark,在上面跑Hive,Pig。或者HDFS上直接跑Impala,Drill。

此外,还有一些厨房的配套工具,比如Yarn,oozie,zookeeper等等...

那我能不能不用等就吃上饭呢?即使是1分钟,我也不想等。
就像一台机器,这边肉放进去,那边熟的香肠出来了。

于是又一种新的烧饭机器(计算模型)被开发出来,这就是Streaming(流)计算。Storm是最流行的流计算平台。

吃货的世界是永远无法满足的,为了美食,厨房里各种厨具被创造出来...

Hadoop生态中的各种锅和铲子(基础架构)

Hadoop生态中的各种瓶瓶罐罐(数据访问工具)

Hadoop生态中的各种急性子用的炊具(内存计算和流计算)

Hadoop生态中的各种厨房管理工具(数据查询工具和协调工具)

Hadoop生态中的食材调料统计工具(数据统计工具)

Hadoop生态中的菜谱搜索工具(搜索工具)

Hadoop生态中的智能餐饮学习工具(机器学习工具)

大数据工具没有好坏之分,而在于适不适合具体的业务场景...

现在,特不正经已经有一个不断演进的厨房了。

厨艺水平在于,烧牛排选什么工具,火候掌握到什么程度,做日餐用什么,法式大餐用怎么....

大数据也一样,为了实现不同的业务目的,用不同的大数据组件,组合可以五花八门,水平就在于如何组合,如何操刀...

这就是作为吃货的特不正经的大数据技术...

特不正经今天就讲到这里,待续....

************************************

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多