1. 这一切是如何开始的—Web上庞大的数据! 2. 使用Nutch抓取Web数据 3. 要保存Web上庞大的数据——HDFS应运而生 4. 如何使用这些庞大的数据? 5. 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析 6. 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据——fuse,webdav, chukwa, flume, Scribe 7. Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中 8. MapReduce编程需要的高级接口——Pig, Hive, Jaql 9. 具有先进的UI报表功能的BI工具- Intellicus 10. Map-Reduce处理过程使用的工作流工具及高级语言 11. 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图—Hue, karmasphere, eclipse plugin, cacti, ganglia 12. 支持框架—Avro (进行序列化), Zookeeper (用于协同) 13. 更多高级接口——Mahout, Elastic map Reduce 14. 同样可以进行OLTP——Hbase |
|
来自: 关平藏书 > 《Hadoop家族》