最强悍的hadoop课程，hadoop培训

sanly137 2014-03-01

展开全文

拥抱“大数据时代”，做 IT“牛人”

　　全球所有信息数据中90%产生于过去两年，大数据时代已经到来！随着云计算和大数据的发展，产业界正在经历一次重大变革，特别是基于云计算的海量数据处理，改变着工程师思考的方式和习惯，开发者们越来越有必要去了解Hadoop的架构与设计原理。
　　Hadoop 是一个可以更容易开发和并行处理大规模数据的分布式计算平台，它的主要特点是：扩展能力强、成本低、高效率、可靠。目前，Hadoop 的用户已经从传统的互联网公司，扩展到科学计算、电信行业、电力行业、生物行业以及金融公司，并得到越来越广泛的应用。
　　招生对象：
　　1. 有工作经验的 Java 软件开发工程师
　　2. Hadoop 的二次开发人员、应用开发工程师、运维工程师

业界最实用、深入、系统的Hadoop课程

　　课程涵盖Hadoop基础、Hadoop底层核心分布式文件系统HDFS、Map/Reduce入门，Hadoop开发的基础、Map/Reduce高级进阶、Hadoop集群管理与监控、HBase实时分布式NoSql数据库、Hive数据仓库工具，同时还将引入实时流计算Storm 、分布式消息系统Kafka和分布式协调系统ZooKeeper的核心内容。

一网打尽Hadoop、Storm、Kafka、Zookeeper等前沿技术

本课程将从源代码的角度对"common+hdfs"架构设计与实现原理进行了极为详细的分析，旨在为hadoop的优化、定制和扩展提供原理性的指导。除此之外，还将从源代码实现中对分布式技术的精髓、分布式系统设计的优秀思想和方法，以及java语言的编码技巧、编程规范和对设计模式的精妙运用进行了总结和分析，以提高学员的分布式技术能力。

有使用过Hadoop经验的人都知道，Hadoop适合处理离线批处理计算，而在实时分析/计算方面Hadoop并不擅长处理，因此很多企业都采用了Storm 来处理实时数据。 (如：今年双十一，天猫数据直播监控屏、优酷实时推荐系统等)

在我们大量使用分布式数据库、分布式计算集群的时候，是否会遇到这样的一些问题：1.我想对用户的搜索关键词进行统计，分析出当前的流行趋势；2.有些数据，我觉得存数据库浪费，直接存硬盘又怕到时候操作效率低
这时候，就可以用到分布式消息系统了，虽然上面的描述更偏向于一个日志系统，但确实kafka在实际应用中被大量的用于日志系统

ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。目前很多分布式应用程序都使用zookeeper来协调集群中的各个节点的工作（如：hbase、kafka）。

大数据 Hadoop 课程

课程特点

1. 所有教学案例全部来源于对大数据处理的真实互联网企业
2. 全面系统讲授 Hadoop 的技术架构以及运行原理
3. 全面讲解Zookeeper在各分布式系统中的应用
4. 深入讲解Storm实时计算与分布式消息系统Kafka架构及原理

预期目标

1.了解Hadoop的体系结构，与分布式计算的关系，掌握hadoop集群的安装配置，及常用日志分析技巧。
2.通过应用案例，掌握 MapReduce 计算模型、工作机制和开发方法，能熟练使用 Hadoop 进行 MapReduce 开发
3.掌握对 Hadoop 集群的管理、维护和优化，以及 Hadoop 的架构原理和使用场景
4.掌握Kafka分布式消息系统的原理，能根据使用场景简单的封装Kafka API接口
5.掌握Storm流计算的架构原理，能使用Storm开发出实时应用场景
6.综合使用各分布式系统（如：Kafka、Storm、hadoop、zookeeper）搭建企业的私有云平台

数据结构	Hadoop 大量使用数据结构，掌握各排序算法（包括：选择、插入、快速、堆）在hadoop中的应用场景、栈和队列（你将了解到hadoop任务调度的基础：FIFO队列和优先级队列）、理解链表与数组的区别、树（最通用的数据结构，结合了有序数组和链表的优点），二叉树与树的遍历
Hadoop 基础	Hadoop产生背景以及简介、Hadoop在大数据中的应用和发展趋势、掌握Hadoop需要的技能（基本的linux命令、了解linux集群原理：如：ssh的配置、防火墙等知识、基本的shell语法）、Hadoop各组成部分介绍、Hadoop运算核心Map/Reduce例子说明
Hadoop底层核心分布式文件系统HDFS	分布式文件系统HDFS简介、HDFS各组件的介绍与详解（您将了解到Hadoop的设计思想与运行原理）、HDFS副本处理规则（Hadoop容错处理的核心原理）、HDFS命令行接口与java接口、HDFS的高可用性
Map/Reduce 基础	理解map/reduce计算模型、Map/Reduce开发环境搭建（你将了解到系统参数的各种配置）、Map/Reduce应用开发、Map/Reduce经典应用案例
Map/Reduce高级进阶	Map阶段的优化、Reduce阶段的优化、编程实战以及使用其他脚本语言编写M/R程序
Hadoop集群管理与监控	Hadoop集群的搭建、Hadoop集群的监控（理解各个监控参数的意义）、Hadoop集群的管理（根据监控的情况，调整集群的运行状态）、集群下运行MapReduce程序
Hive数据仓库工具	Hive定义以及数据存储、Hive的基本操作、在集群上安装Hive、Hive ql详解及操作（DDL、DML）、Hive的网络接口与 JDBC 接口、Hive的优化、Hive自定义函数
HBase实时分布式NoSql数据库	HBase详细介绍、HBase与RDBMS的对比（为什么）、HBase的表结构，RowKey，列族和时间戳、集群的搭建与监控、HBase中的Master，Region以及Region Server、HBase客户端（shell以及java客户端代码演示）
Zookeeper	Zookeeper基础： Zookeeper集群的搭建、理解zookeeper的体系结构、选举算法与读写机制介绍、Zookeeper API接口编程 Zookeeper应用： 1.配置管理 2. 统一命名管理 3. 分布式锁 4. 分布式队列
Kafka	Kafka原理：Kafka集群的搭建、kafka原理与体系结构介绍、kafka各组件介绍（Broker、Produce、Consumer节点） Kafka实战：消费者与生产者API接口编程、使用kafka来模拟日志采集系统中的收发
Storm 实时计算	Storm产生背景与应用场景、Strom与Hadoo的比较、Storm体系结构与基本原理、Storm各组件的介绍、Storm可靠性原理（消息失败的重发）、Storm集群搭建、编程实战
Hadoop 项目	名称：某大型互联网企业私有云平台该系统来源于北京某大型互联网公司, 应用于集团内部，为集团内各部门提供存储服务，计算服务，扩展服务架构：Hadoop+Hive+Hbase+SSH2(使用SSH架构来管理各部门的hadoop资源的申请、监控等) 项目目标：通过此项目掌握私有云平台的开发和维护模式