前言绪论 一、纵观大数据发展前景 1. 人们不再止步于大数据的谈论 2014年,大数据止于说的情况将发生改变,人们将致力于从中获益,所有大数据的炒作也将“烟消云散”。从Gainsight了解到,大数据本身也将成为桌面上的筹码,Gainsight在其IaaS平台中利用大数据分析被其称之为“customer success management”的服务。Gainsight认为,在2014年,每家云应用程序提供商都将会让其后端基础设施支持大数据。 2. Hadoop在大中型企业普及应用将成为企业的关键组件 Hadoop将普及,大数据也不会再继续止步于云服务。Alteryx认为,2014年,Hadoop的适用场景将超越批处理和存储,将成为企业数据架构中通用的核心组件,这意味着数据分析将继续成为大数据的首要用例。 3. 企业将更加钟情于用户数据 从Gainsight了解到,各个机构将对用户数据充满热情,企业将充分利用客户与其在线产品或服务交互产生的数据,并从中获取价值。为了实现这点,数据分析能力将比BI团队更受重视,为企业提供更多的价值。 4. 大数据为王的时刻将要玩转市场决策 Alteryx认为,在2014年,大数据将首次正式登陆市场营销,用于市场营销的大数据技术将在这一年扮演重要角色——影响着广告、产品推销和消费者行为,World Cup及Winter Olympics将是其最大的舞台。 5. 海量的数据将超越数据科学家的意识 Alteryx认为,新型的数据分析需求将超越人力可为,有些情况下大数据技术将堪比成千上万的数据科学家。该公司预测,这将会毫无疑问的拉低数据科学家薪酬。 6. 物联网将进军网络 IEEE的专业协会认为,2014年,可识别事物将无缝的连接到信息网络,实现真正意义上的Web of Things。The Web of Things将会充分利用移动设备和传感器的监控能力,增强现实世界中的物体与Web副本之间的协同性。 The Web of Things将会生成大量与现实世界相关的数据,因而会需求智能化的解决方案在现实世界与相对应的数字世界资源之间赋予连接性、网际互连和相关性。 7. 从大数据到海量数据 数据的体积、速度和类型(volume、velocity和variety)在2014年将会继续呈指数级增长,因此需要更简单的分析工具来驾驭这些“数据洪流”。 IEEE称,“不止是3个V让大数据成了非常难以制服的老虎,数据科学家及行业所需简单工具也是个难题,许多行业尚无独立提取数据价值的能力。当前已出现的海量数据时代更需求数据管理和分析上新的范式和实践。2014年,这个领域将上演群雄争霸。” 8. R语言将取代传统SAS解决方案 Alteryx认为,基于R编程语言的分析将数据科学家“御用”模式,这种分析在2014年将成为主流,将替代传统的SAS及SPSS模式。Alteryx说道:“超过200万用户和300万的分析师都在寻找更好的解决方案,R恰逢其时。” 9. Hadoop将增加实时特性 SQL-on-Hadoop供应商Splice Machine共同创始人兼CEO Monte Zweben指出,未来1年建立在Hadoop平台上的交互式应用程序将呈爆发式增长,其中包括Web应用、移动应用和社交应用,人们可以与之进行实时的交互。 Zweben说道:“2014将带来实时大数据应用程序平台,企业将不会只能像当下一样分析历史数据,你将有能力分析5分钟,甚至是1分钟之内的数据;企业将拥有交互式应用程序,以便实时的制定决策。” 10. Hadoop将得到企业级强化 Splice Machine的Zweben说:“毋庸置疑,Hadoop是个了不起的平台,但是仍然有许多工作要做。” 他认为,在2014,你将看到Hadoop向安全、运营管理、资源管理及多站点响应方向发展。Zweben补充道:“你将看到所有的企业级需求,我认为这些将是未来主要的焦点。” 11. 2014年底,至少有一家NoSQL IPO 大数据及云环境安全解决方案Gazzang董事长兼CEO Larry Warnock预测,在2014,至少有一家Hadoop或者NoSQL供应商会IPO,这标志着大数据平台已被广泛认可。 Warnock说道:“我不会去预测哪家会IPO,但是至少会有一家Hadoop或NoSQL供应商IPO。通过Wikibon了解到,在2012年,NoSQL软件和服务创造了2.86亿美元的税收,而在2017年,这个数据被预测为18.25亿。商场被不断增长的企业需求推动,他们需要灵活、可扩展及负担得起的数据管理解决方案,为新时代的云及大数据设计。” 12. 一个新的分析堆栈将诞生 Alteryx 预测,2014年,将出现一个新的数据及分析堆栈,为数据库、分析、可视化提供新的解决方案,这将直接威胁到传统的供应商巨头,而这些供应商也会在匆忙中推出新的解决方案。 二、大数据基础概论简介 2.1大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。 百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,日均响应 50亿次搜索请求,搜索市场占比达80%,百度联盟,60万联盟合作伙伴每天有50亿次的日均行为产生,这些构成了巨大数据的基础。变现模式:推百度指数,并在百度指数的基础上建立百度风云榜;百度数据中心,研究机构的方式网络搜索咨询报告。广告站长和开发组提供的百度(移动)统计以及相关的开发者服务工具 腾讯则超过7.836亿QQ活跃账户,4.69亿微博用户和超过1亿的视频用户、5.976亿QQ空间用户,微信、手机管家等带来的移动用户也超过了4亿,海外用户快超过1亿。除却海量用户,庞大服务矩阵,带来数据的非结构化、碎片化、海量化。 变现工具只有:腾讯分析和腾讯罗盘马云宣称平台、金融和数据是阿里未来的三大战略方向。阿里未来本质上是一个数据公司,电商越来越离不开数据, 金融的核心也是数据。、KPI系统、数据门户、活动直播间、卖家云图、页面点击、黄金策;给客户提供的数据魔方、无量神针和类目360、淘宝指数最具备划时代意义的2012年阿里又推出了聚石塔产品可提供数据存储、数据计算两类服务处理的订单超过天猫总量的20%,比平时增长20倍。阿里金融是大数据衍生产品开发的一个范例。阿里由于电商特性他在应用上走得是最远的。 三、大数据七点总结: 一种思维:数据思维 两大推动:极致体验、长尾效应 三大趋势:泛互联网、垂直一体化、数据是资产。 四大步骤:入口、流量、数据、变现 五大标准:活性、颗粒度、维度时空、情绪 六大模式:数据、信息、咨询、媒体、数据使能、技术 七字心决:专注、极致、口碑、快 四、大数据进修学习内容模块及发展方向
4.1 Linux学习知识概要 (安装) Linux简介 Linux与Unix区别 Linux安装 Linux常用命令与Unix异同 Linux文件系统 Linux用户及用户组管理 实验: 1)安装, 2)常用命令的使用 3)常用服务配置 4)用户配置 5)网络管理 (管理) Linux系统性能分析 Linux网络管理及配置 Linux安全控制 Linux存储管理 Linux系统服务 目标:掌握Linux基本操作和管理知识
4.2 Hadoop分布式计算学习 目标:掌握MapReduce程序开发及Hadoop集群运维知识 (架构原理)大数据时代及Hadoop简介 Hadoop集群安装部署 HDFS部分 HDFS原理和体系结构 访问HDFS HDFS常用Java API详解 HDFS中的重要文件存储结构 HDFS数据读写原理 (实验): 部署Hadoop集群 编写简单和复杂的MapReduce程序 元数据备份及管理 使用Ganglia、Nagios对Hadoop进行监控 使用dfsadmin和fsck对Hadoop集群进行管理 掌握Hadoop集群日常维护 1、datanode节点磁盘损坏故障恢复 2、datanode节点硬件升级替换 3、datanode节点故障宕机恢复 4、datanode节点磁盘损坏处理 5、namenode高可用方案实战 6、namenode故障宕机后的metadata数据恢复 7、namenode主备节点热切换 要求具备基本的Hadoop知识(开发维护) HDFS数据压缩机制 HDFS 元数据管理方法与技术 HDFS数据块存储管理方法与技术 HDFS HA MapReduce部分 MapRedcue工作原理 MapReduce组件详解 MapReduce Job执行流程介绍 Streaming编程 MapReduce任务调度 (Hadoop的最新框架原理) 什么是Hadoop2.0 Hadoop2.0与1.0对比 YARN原理和基本架构 YARN安装部署 运作机制 (Hadoop运维监控) Hadoop运维 Hadoop运维管理,常见故障 openTSDB实战 MapReduce作业调优 案例 讨论
4.3大数据存储(Hbase)学习 目标:掌握HBase主要功能,熟练使用API开发应用程序,掌握集群运维方法 (HBase简介和架构) NoSql数据库与关系数据库的对比 HBase基本概念 HBase应用场景 HBase架构和核心模块介绍 HBase存储逻辑结构介绍 集群下安装部署HBase 启动HBase,启动顺序 测试启动多种方法 实验: 部署HBase集群 通过Java程序管理表 通过Java程序增删改查数据 编写过滤器精细控制数据 编写2种协处理器程序 HBase表管理 HBase Region转移和备份 Split&Compact策略 regionserver日常维护 master日常维护 (HBase核心知识点) 基本方法:Get/Put/Scan/Delete 列式存储核心:LSM 日志系统:WAL 底层存储:HFile 复制、备份:Replication 过渡期:RIT 分裂、合并:Split/Compact 负载均衡:Load Balance 批量记载:bulk load 监控系统:OpenTSDB 主键设计:key design 二级索引:secondary index 协处理器:Coprocessors 过滤器:bloomfilter 版本:version (Hbase管理与案例) 集群管理和监控 性能优化 native java接口 shell client thrift接口 案例(需求剖析、架构设计) (Nosql技术发展) 主流NoSql产品简介:Cassandra、 MongoDB、CouchDB、Redis NoSql产品优缺点比较、性能比较 4.4大数据存储(Hive数据库)学习 (原理)Hive概念 Hive架构原理 如何利用Hive用户接口提交作业 Hive主要配置详解 目标:掌握HQL语法及调优方法 实验:使用HQL语句和自定义函数实现简单和复杂的数据统计 (使用) HiveQL语法讲解及使用 编写UDF及UDAF、UDTF函数 Hive与HBase的整合 HiveQL优化与执行计划 Hive日志管理 hive输入lzo文件格式时会产生中文乱码 分隔符入库问题(如何定制分隔符入库,比如€) (管理和优化) 多级存储迁移(数据生命周期) 如何找出低效的hive任务 使用Hive分区策略 HIVE查询中分区剪裁失效案例分析 使用Lzo压缩优化数据存储容量 CPU与IO配比 编写Hive自定义MapReduce脚本优化查询 Hive数据倾斜和查询性能优化 解决hive数据倾斜的多个案例分析 Mapjoin解决数据倾斜 优化小文件过多的sql 介绍一下大表之间join或group by 或 distinct产生倾斜解决的案例 使用Sqoop工作原理和进行数据分析 使用oozie配置工作流 编写程序注意规范
4.5大数据相关技术Pig学习 Pig简介 安装和运行Pig Pig Latin详解 命令行使用以及配置选项介绍 目标:掌握Pig Latin使用方法
4.6 ZooKeeper协调管理学习 目标:了解ZooKeeper在Hadoop系统中的作用,掌握基本运维知识 概念介绍和基本原理 集群安装部署 Zookeeper Server角色 实验:搭建ZooKeeper集群 Zookeeper Server选举、同步和工作流程 Leader的工作流程 Follower的工作流程 Zookeeper的扩展 Zookeeper的应用场景 Zookeeper性能调优 Zookeeper性能调优 数据一致性与Paxos算法 案例 相关技术 4.7 日志采集系统Flume 学习 目标:掌握Flume Agent和Collector配置 2天 具备Hadoop基础 Flume简介 Flume架构设计 Flume原理及常见配置 Flume部署、安装、配置 Flume常用Source、Sink、Decorator Flume常用命令 Flume与Hadoop、HBase集成 编写Source、Sink、Decorator插件 主要日志采集产品简介:Chukwa、Scribe、Kafka 各产品之间优缺点比较 4.8Storm实时处理 学习 Storm简介 Storm安装部署 Storm架构及工作原理详解 目标:理解Storm工作原理及应用程序编写 2天 storm组件介绍 Topology介绍 Spout组件 Blot组件 Strom的数据模型 流分组策略 Storm的容错机制 基于storm的开发 自定义Topology 维护管理 案例Topology 4.9 Spark实时处理框架学习 目标:掌握Spark安装配置和开发 Spark的简介 Spark的原理 Spark与hadoop的比较 Spark安装 Mesos介绍 Mesos安装 Spark生态系统介绍 Spark核心概念 —RDD介绍 scala语言学习、Spark源码解析、Spark案例实战 4.10大数据挖掘学习 数据挖掘应用领域: 用户相关: 客户分析,商友圈 推荐:商品,用户,资讯、、、 搜索:标签,排名 营销 文本分析 常用数据挖掘工具: Weka Mahout历史沿革、架构和算法介绍 Mahout适用场景介绍 Mahout安装部署 Mahout相关的数据基础知识讲解 常用数据挖掘算法: 聚类 分类 数据挖掘应用案例简述: 反作弊、精准营销;为商品打标签(1):风格标签 数据挖掘算法和相关应用案例 用户研究:个性化应用,对用户分层,聚类,打标注 业务背景 系统架构 kmeans算法介绍和应用 LDA应用 数据挖掘算法和应用案例 商品搜索:标签,商品排名 业务背景 系统架构 分类算法学习和应用 回归算法学习和应用 推荐 :商品推荐系统 业务背景 系统架构 关联算法学习和应用 协同过滤算法学习和应用 内容相关算法学习和应用 五、结论 大数据飞速发展时代如何适应当前企业发展需要、做一个合格的大数据开发工程师、只有不断充实自己、不断努力提升自己的技术专业水平与时俱进!如何充实自己的专业技术水平、提高自己的经验->大数据进修学习思数科技欢迎! |
|