分享

云计算大数据国内第一专业实战门户职业学习规划

 思数云 2014-03-13
 
 

 

前言绪论

一、纵观大数据发展前景

1. 人们不再止步于大数据的谈论

            2014年,大数据止于说的情况将发生改变,人们将致力于从中获益,所有大数据的炒作也将“烟消云散”。从Gainsight了解到,大数据本身也将成为桌面上的筹码,Gainsight在其IaaS平台中利用大数据分析被其称之为“customer success management”的服务。Gainsight认为,在2014年,每家云应用程序提供商都将会让其后端基础设施支持大数据。

2. Hadoop在大中型企业普及应用将成为企业的关键组件

           Hadoop将普及,大数据也不会再继续止步于云服务。Alteryx认为,2014年,Hadoop的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。

3. 企业将更加钟情于用户数据

        Gainsight了解到,各个机构将对用户数据充满热情,企业将充分利用客户与其在线产品或服务交互产生的数据,并从中获取价值。为了实现这点,数据分析能力将比BI团队更受重视,为企业提供更多的价值。        

4. 大数据为王的时刻将要玩转市场决策

        Alteryx认为,在2014年,大数据将首次正式登陆市场营销,用于市场营销的大数据技术将在这一年扮演重要角色——影响着广告、产品推销和消费者行为,World CupWinter Olympics将是其最大的舞台。

5. 海量的数据将超越数据科学家的意识

            Alteryx认为,新型的数据分析需求将超越人力可为,有些情况下大数据技术将堪比成千上万的数据科学家。该公司预测,这将会毫无疑问的拉低数据科学家薪酬。

6. 物联网将进军网络

          IEEE的专业协会认为,2014年,可识别事物将无缝的连接到信息网络,实现真正意义上的Web of ThingsThe Web of Things将会充分利用移动设备和传感器的监控能力,增强现实世界中的物体与Web副本之间的协同性。

            The Web of Things将会生成大量与现实世界相关的数据,因而会需求智能化的解决方案在现实世界与相对应的数字世界资源之间赋予连接性、网际互连和相关性。

7. 从大数据到海量数据

            数据的体积、速度和类型(volumevelocityvariety)在2014年将会继续呈指数级增长,因此需要更简单的分析工具来驾驭这些“数据洪流”。

        IEEE称,“不止是3V让大数据成了非常难以制服的老虎,数据科学家及行业所需简单工具也是个难题,许多行业尚无独立提取数据价值的能力。当前已出现的海量数据时代更需求数据管理和分析上新的范式和实践。2014年,这个领域将上演群雄争霸。”

8. R语言将取代传统SAS解决方案

            Alteryx认为,基于R编程语言的分析将数据科学家“御用”模式,这种分析在2014年将成为主流,将替代传统的SASSPSS模式。Alteryx说道:“超过200万用户和300万的分析师都在寻找更好的解决方案,R恰逢其时。”

9. Hadoop将增加实时特性

            SQL-on-Hadoop供应商Splice Machine共同创始人兼CEO Monte Zweben指出,未来1年建立在Hadoop平台上的交互式应用程序将呈爆发式增长,其中包括Web应用、移动应用和社交应用,人们可以与之进行实时的交互。

      Zweben说道:“2014将带来实时大数据应用程序平台,企业将不会只能像当下一样分析历史数据,你将有能力分析5分钟,甚至是1分钟之内的数据;企业将拥有交互式应用程序,以便实时的制定决策。”

10. Hadoop将得到企业级强化

        Splice MachineZweben说:“毋庸置疑,Hadoop是个了不起的平台,但是仍然有许多工作要做。”

   他认为,在2014,你将看到Hadoop向安全、运营管理、资源管理及多站点响应方向发展。Zweben补充道:“你将看到所有的企业级需求,我认为这些将是未来主要的焦点。”    

11. 2014年底,至少有一家NoSQL IPO

            大数据及云环境安全解决方案Gazzang董事长兼CEO Larry Warnock预测,在2014,至少有一家Hadoop或者NoSQL供应商会IPO,这标志着大数据平台已被广泛认可。

      Warnock说道:“我不会去预测哪家会IPO,但是至少会有一家HadoopNoSQL供应商IPO。通过Wikibon了解到,在2012年,NoSQL软件和服务创造了2.86亿美元的税收,而在2017年,这个数据被预测为18.25亿。商场被不断增长的企业需求推动,他们需要灵活、可扩展及负担得起的数据管理解决方案,为新时代的云及大数据设计。”    

12. 一个新的分析堆栈将诞生

     Alteryx 预测,2014年,将出现一个新的数据及分析堆栈,为数据库、分析、可视化提供新的解决方案,这将直接威胁到传统的供应商巨头,而这些供应商也会在匆忙中推出新的解决方案。

二、大数据基础概论简介

2.1大数据(Big Data是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。
   
数据中隐藏着有价值的模式和信息,在以往需要相当的时间和成本才能提取这些信息。如沃尔玛或谷歌这类领先企业都要付高昂的代价才能从大数据中挖掘信息。而当今的各种资源,如硬件、云架构和开源软件使得大数据的处理更为方便和廉价。即使是在车库中创业的公司也可以用较低的价格租用云服务时间了。
  
对于企业组织来讲,大数据的价值体现在两个方面:分析使用和二次开发。通过大数据创造出新产品和服务的商业行为并非巧合,谷歌、雅虎、亚马逊和Facebook,它们都是大数据时代的创新者。
2.2大数据的特征
    作为一个包罗万象的术语,大数据相当的含糊不清。同样的,这个概念也涵盖了不同的技术。大数据系统的输入端可以列一个极长的表,包括了社会网络、Web服务器日志、流量传感器、卫星图像、广播音频流、银行交易、摇滚音乐MP3、网页的内容、政府文件扫描、GPS路线、金融市场数据等等。而这些数据本质上并非是相同的东西。
     IBM
公司把大数据的特征概括成三个“V”,也就是规模(Volume快速(Velocity多样(Variety。这三个方面是观察数据本质和软件处理平台的有用视角。
几家典型公司的大数据:

百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,日均响应

50亿次搜索请求,搜索市场占比达80%,百度联盟,60万联盟合作伙伴每天有50亿次的日均行为产生,这些构成了巨大数据的基础。变现模式:推百度指数,并在百度指数的基础上建立百度风云榜;百度数据中心,研究机构的方式网络搜索咨询报告。广告站长和开发组提供的百度(移动)统计以及相关的开发者服务工具

腾讯则超过7.836亿QQ活跃账户,4.69亿微博用户和超过1亿的视频用户、5.976亿QQ空间用户,微信、手机管家等带来的移动用户也超过了4亿,海外用户快超过1亿。除却海量用户,庞大服务矩阵,带来数据的非结构化、碎片化、海量化。

变现工具只有:腾讯分析和腾讯罗盘马云宣称平台、金融和数据是阿里未来的三大战略方向。阿里未来本质上是一个数据公司,电商越来越离不开数据,

金融的核心也是数据。KPI系统、数据门户、活动直播间、卖家云图、页面点击、黄金策;给客户提供的数据魔方、无量神针和类目360、淘宝指数最具备划时代意义的2012年阿里又推出了聚石塔产品可提供数据存储、数据计算两类服务处理的订单超过天猫总量的20%,比平时增长20倍。阿里金融是大数据衍生产品开发的一个范例。阿里由于电商特性他在应用上走得是最远的。
2.3规模(Volume
   
能处理大数据所获得的好处在于能对大数据进行分析。更多的数据强于更好的模型,如果你的预测模型可以考虑到300个变量而非仅仅6个变量,其预测能力多半能更为准确。
   
大数据的规模是传统IT架构所面临的直接挑战。它要求可扩展的存储和分布式的方法来完成查询。许多公司已经拥有大量的存档数据,但却没有能力来处理它。传统的关系数据库无法处理大数据的规模,目前可选择的方法包括大规模并行处理架构、数据仓库、或类似Greenplum的数据库、以及Apache Hadoop解决方案。其中,数据仓库比较适合于预先确定的数据结构和变化缓慢的数据。而Apache Hadoop则没有这些限制。
     Hadoop
的核心是一个分布在多个服务器上的计算平台。它作为开放源码首先由雅虎开发并发布,它是谷歌所提出的MapReduce方法的实现。 HadoopMapReduce包括了两个阶段:向多个服务器和操作系统分发数据,即map阶段,然后重组并行计算结果,即reduce阶段。
     Hadoop
利用自身的分布式文件系统(HDFS)来存储数据,这使得多个计算节点能获取数据。一个典型的Hadoop使用模式包括三个阶段:加载数据到HDFSMapReduce操作、从HDFS检索结果。这个过程本质上是一个批处理,适合于分析或者是非交互式的计算任务。正因为如此,Hadoop本身不是一个数据库或数据仓库的解决方案,而是分析的辅助。最知名的Hadoop的用户之一是Facebook。它的MySQL数据库存储核心数据。然后再反映到Hadoop系统进行计算。计算结果会再次转移到MySQL,以提供给用户的页面使用。

三、大数据七点总结:

一种思维:数据思维  

两大推动:极致体验、长尾效应

三大趋势:泛互联网、垂直一体化、数据是资产。

四大步骤:入口、流量、数据、变现

五大标准:活性、颗粒度、维度时空、情绪

六大模式:数据、信息、咨询、媒体、数据使能、技术

七字心决:专注、极致、口碑、快

四、大数据进修学习内容模块及发展方向

                           

                     4.1 Linux学习知识概要

(安装) Linux简介

LinuxUnix区别

  Linux安装

  Linux常用命令与Unix异同

  Linux文件系统

  Linux用户及用户组管理       

实验:

1)安装,

2)常用命令的使用

3)常用服务配置

4)用户配置

5)网络管理

(管理)           Linux系统性能分析

  Linux网络管理及配置

  Linux安全控制

  Linux存储管理

Linux系统服务       

目标:掌握Linux基本操作和管理知识

                  

4.2 Hadoop分布式计算学习

目标:掌握MapReduce程序开发及Hadoop集群运维知识

(架构原理)大数据时代及Hadoop简介

  Hadoop集群安装部署

  HDFS部分

  HDFS原理和体系结构

  访问HDFS

  HDFS常用Java API详解

  HDFS中的重要文件存储结构

  HDFS数据读写原理       

(实验):

  部署Hadoop集群

  编写简单和复杂的MapReduce程序

  元数据备份及管理

  使用GangliaNagiosHadoop进行监控

  使用dfsadminfsckHadoop集群进行管理

  掌握Hadoop集群日常维护

1datanode节点磁盘损坏故障恢复

2datanode节点硬件升级替换

3datanode节点故障宕机恢复

4datanode节点磁盘损坏处理

5namenode高可用方案实战    

6namenode故障宕机后的metadata数据恢复

7namenode主备节点热切换

要求具备基本的Hadoop知识(开发维护)      

    HDFS数据压缩机制

  HDFS 元数据管理方法与技术

  HDFS数据块存储管理方法与技术

  HDFS HA

  MapReduce部分

  MapRedcue工作原理

  MapReduce组件详解

  MapReduce Job执行流程介绍

  Streaming编程

  MapReduce任务调度                      

Hadoop的最新框架原理)

           什么是Hadoop2.0

  Hadoop2.01.0对比

  YARN原理和基本架构

  YARN安装部署

运作机制                           

Hadoop运维监控)   Hadoop运维

Hadoop运维管理,常见故障

    openTSDB实战

 MapReduce作业调优

案例

讨论

                           

4.3大数据存储(Hbase)学习

目标:掌握HBase主要功能,熟练使用API开发应用程序,掌握集群运维方法

HBase简介和架构) NoSql数据库与关系数据库的对比

HBase基本概念

HBase应用场景

HBase架构和核心模块介绍

HBase存储逻辑结构介绍

集群下安装部署HBase

启动HBase,启动顺序

测试启动多种方法

  实验:

  部署HBase集群

  通过Java程序管理表

  通过Java程序增删改查数据

  编写过滤器精细控制数据

  编写2种协处理器程序

  HBase表管理

  HBase Region转移和备份

  Split&Compact策略

  regionserver日常维护

  master日常维护            

HBase核心知识点) 基本方法:Get/Put/Scan/Delete

列式存储核心:LSM

日志系统:WAL

底层存储:HFile

复制、备份:Replication

过渡期:RIT

分裂、合并:Split/Compact

负载均衡:Load Balance

批量记载:bulk load

监控系统:OpenTSDB

主键设计:key design

二级索引:secondary index

协处理器:Coprocessors

过滤器:bloomfilter

版本:version                           

Hbase管理与案例) 集群管理和监控

性能优化

native java接口

shell client

thrift接口

案例(需求剖析、架构设计)                      

Nosql技术发展)       主流NoSql产品简介:Cassandra

MongoDBCouchDBRedis

NoSql产品优缺点比较、性能比较                         

4.4大数据存储(Hive数据库)学习

(原理)Hive概念

  Hive架构原理

  如何利用Hive用户接口提交作业

  Hive主要配置详解           目标:掌握HQL语法及调优方法

  实验:使用HQL语句和自定义函数实现简单和复杂的数据统计   

(使用)          

HiveQL语法讲解及使用

  编写UDFUDAFUDTF函数

  HiveHBase的整合

  HiveQL优化与执行计划

Hive日志管理

hive输入lzo文件格式时会产生中文乱码

分隔符入库问题(如何定制分隔符入库,比如€)

(管理和优化)    

多级存储迁移(数据生命周期)

如何找出低效的hive任务

使用Hive分区策略

    HIVE查询中分区剪裁失效案例分析

使用Lzo压缩优化数据存储容量

CPUIO配比

编写Hive自定义MapReduce脚本优化查询

Hive数据倾斜和查询性能优化

    解决hive数据倾斜的多个案例分析

Mapjoin解决数据倾斜

    优化小文件过多的sql

介绍一下大表之间joingroup by distinct产生倾斜解决的案例

使用Sqoop工作原理和进行数据分析

使用oozie配置工作流

编写程序注意规范

                           

4.5大数据相关技术Pig学习   

Pig简介

  安装和运行Pig

  Pig Latin详解 

命令行使用以及配置选项介绍 

目标:掌握Pig Latin使用方法       

                      

4.6 ZooKeeper协调管理学习

目标:了解ZooKeeperHadoop系统中的作用,掌握基本运维知识    

概念介绍和基本原理

  集群安装部署

  Zookeeper Server角色      

实验:搭建ZooKeeper集群

Zookeeper Server选举、同步和工作流程

  Leader的工作流程

  Follower的工作流程                                   

Zookeeper的扩展

  Zookeeper的应用场景

Zookeeper性能调优                           

Zookeeper性能调优

  数据一致性与Paxos算法

     案例

     相关技术                         

               4.7 日志采集系统Flume 学习

目标:掌握Flume AgentCollector配置  2 具备Hadoop基础

Flume简介

  Flume架构设计

  Flume原理及常见配置                 

Flume部署、安装、配置

  Flume常用SourceSinkDecorator

  Flume常用命令                                   

FlumeHadoopHBase集成

  编写SourceSinkDecorator插件                       

主要日志采集产品简介:ChukwaScribeKafka

  各产品之间优缺点比较                           

4.8Storm实时处理 学习

Storm简介

  Storm安装部署

  Storm架构及工作原理详解    目标:理解Storm工作原理及应用程序编写     2

storm组件介绍

Topology介绍

Spout组件

Blot组件

Strom的数据模型

     流分组策略

Storm的容错机制                   

基于storm的开发

自定义Topology                       

维护管理

案例Topology                   

4.9 Spark实时处理框架学习

目标:掌握Spark安装配置和开发

Spark的简介

Spark的原理

Sparkhadoop的比较

Spark安装                

Mesos介绍

Mesos安装

Spark生态系统介绍

Spark核心概念

RDD介绍                      

scala语言学习、Spark源码解析、Spark案例实战                      

4.10大数据挖掘学习

数据挖掘应用领域:

用户相关: 客户分析,商友圈

推荐:商品,用户,资讯、、、

搜索:标签,排名

营销

文本分析        

常用数据挖掘工具:

Weka

Mahout历史沿革、架构和算法介绍

Mahout适用场景介绍

Mahout安装部署

Mahout相关的数据基础知识讲解                         

常用数据挖掘算法:

聚类

分类                           

数据挖掘应用案例简述:

反作弊、精准营销;为商品打标签(1):风格标签                                    

数据挖掘算法和相关应用案例

用户研究:个性化应用,对用户分层,聚类,打标注

业务背景

系统架构

kmeans算法介绍和应用

LDA应用                            

数据挖掘算法和应用案例

商品搜索:标签,商品排名

业务背景

系统架构

分类算法学习和应用

回归算法学习和应用                      

推荐 :商品推荐系统

业务背景

系统架构

关联算法学习和应用

协同过滤算法学习和应用

内容相关算法学习和应用                      

五、结论

大数据飞速发展时代如何适应当前企业发展需要、做一个合格的大数据开发工程师、只有不断充实自己、不断努力提升自己的技术专业水平与时俱进!如何充实自己的专业技术水平、提高自己的经验->大数据进修学习思数科技欢迎!

 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多